Utilisation des scores z en orthophonie
Utilisation des scores z en orthophonie
PRE PRINT
Aguert, M., & Capel, A. (2018). Mieux comprendre les scores z pour bien les utiliser.
Rééducation Orthophonique, 274, 61-85.
Correspondance : Marc Aguert, Esplanade de la Paix, CS 14032, 14032 Caen cedex 5, France.
Courriel : [Link]@[Link]
Abstract: Assessment in speech therapy or psychology frequently involves the use of z-scores,
a statistical tool that allows to standardize the person's performance on a test. The use of z-
scores is generally coupled with cut-off scores that, when crossed with clinical considerations,
allow to conclude whether the individual's performance is "normal" or "abnormal". This article
first aims to recall the way z-scores work, in particular their close links with the distribution of
scores in the reference population, normal (i.e. Gaussian) or not. It then aims to help the
practitioner reduce the risk of making false positives or false negatives by concluding that a
performance is abnormal by drawing attention to the following factors: use of a test unsuited to
the subject, an unsuitable cut-off score, norms unsuited to the subject, scores following a non-
normal distribution in the population, and finally, not taking measurement error into account.
1
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
ignore toujours quel était l’état « normal » du sujet avant son accident, son traitement, etc. C’est
pour évaluer cette normalité fonctionnelle que les praticiens procèdent toujours à une anamnèse
méticuleuse. Finalement, la normalité statistique est définie à travers la fréquence d’apparition
des comportements : un comportement ou une performance fréquente est jugée « normale »
tandis qu’un comportement ou une performance rare est jugée « anormale », et donc
possiblement pathologique. A défaut d’être toujours pertinente dans l’évaluation des fonctions
cognitives, la normalité statistique est largement utilisée en orthophonie et en psychologie, les
praticiens étant souvent séduits par les gages d’objectivité qu’elle offre.
Les statistiques ne permettent pas de dire qu’un comportement en soi, ou une
performance, est faible ou fort, normal ou pathologique. Les statistiques se bornent à renseigner,
après collecte d’un nombre important de comportements / performances sur la population
d’intérêt, la fréquence avec laquelle ces comportements / performances apparaissent. Ce qui
permet ensuite de juger de leur fréquence ou de leur rareté. Imaginons qu’on s’intéresse aux
résultats nationaux du baccalauréat en 2017 en France. La figure 1 représente la distribution
de fréquence des performances des lycéens : en abscisse, la performance (exprimée par la note
obtenue) et en ordonnée, la fréquence1 de lycéens entrant dans chacune des catégories définies
en abscisse. Un simple coup d’œil à cette distribution de fréquence permet de constater que
certaines performances (par exemple, avoir 10 au bac, qui concerne 25,4% des lycéens) sont
plus fréquentes que d’autres (par exemple, avoir 19 au bac qui concerne 0,1% des lycéens). Ce
premier exemple met tout de suite en évidence la faiblesse principale de l’approche statistique
de la normalité : avoir son bac avec une moyenne de 19/20 est très rare. Pour autant, personne
n’aurait l’idée de qualifier cette performance de pathologique…
La distribution de fréquence permet de juger une note de manière relative, c’est-à-dire
au regard de sa position dans la distribution. Imaginons que Paul ait réalisé 12 erreurs à un test.
Cette performance, qui n’a pas de sens en soi, devient interprétable quand on constate sur la
distribution de fréquence qu’une grande majorité des individus de la population à laquelle Paul
appartient fait plus de 12 erreurs. Faire 12 erreurs est alors plutôt une bonne performance. A
l’inverse, si la distribution de fréquence montre qu’une grande majorité des individus de la
population fait moins de 12 erreurs, alors Paul a plutôt réalisé une mauvaise performance. En
regardant la figure 1, on constate que 9/20 n’est pas une bonne note car une grande majorité de
lycéens (88%) ont plus que cette note. Il existe deux techniques pour situer précisément un
individu par rapport à sa population de référence : les quantiles et les scores standards. Ces
deux techniques sont basées sur les informations apportées par la distribution de fréquence et
ont chacune des avantages et des inconvénients sur lesquels nous reviendrons au fil de cet
article.
1
Les fréquences sont une manière d’exprimer un effectif sous forme de proportion. Fréquences et pourcentages
sont des proportions qui se distinguent simplement par le fait que l’échelle des fréquences va de 0 à 1 et l’échelle
des pourcentages va de 0 à 100.
3
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
0,3
0,25
0,2
Fréquences
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Notes (/20)
Les scores z
Une distribution centrée réduite
Les scores z sont un type de scores standards, c’est-à-dire de scores dont la moyenne et
l’écart-type de la distribution sont conventionnels et connus de ceux qui les utilisent, ce qui
facilite l’interprétation de ces scores. Parmi les scores standards les plus connus on trouve donc
les scores z (µ = 0 ; σ = 1), les scores T (µ = 50 ; σ = 10), les QI (µ = 100 ; σ = 15)2. Il est
possible de transformer n’importe quelle distribution de notes en scores z en appliquant la
formule (1) ci-dessous où x est la note brute d’une personne, mx la moyenne de la distribution
des notes et sx, l’écart-type de la distribution des notes3.
𝑥−𝑚𝑥
(1) 𝑧 =
𝑠𝑥
Cette simple opération arithmétique aura pour effet de centrer la moyenne de la distribution sur
0 et de réduire l’écart-type sur 1, quelle que soit la forme de la distribution originelle des notes.
On obtient ainsi une distribution des scores dite « centrée réduite » où chaque score z exprime
directement la « distance » du patient à la moyenne en nombre d’écart-type. Un patient ayant
2
En statistique, on désigne par des lettres grecques les paramètres des populations et par des lettres latines les
statistiques des échantillons pour bien les distinguer. Pour la population, on note la moyenne « µ » et l’écart-type
« σ ». Pour les échantillons issus de cette population, on note les moyennes « m » et les écart-types « s ». Ainsi,
la distribution des scores z dans la population a une moyenne µ et un écart-type σ.
3
Ici, nous utilisons les notations « m » et « s » puisqu’en pratique, nous connaissons rarement la moyenne et
l’écart-type de notre population d’intérêt. A défaut, nous utilisons la moyenne et l’écart-type de l’échantillon
ayant servi à étalonner / normer le test. Les notations « SD » (pour l’anglais Standard Deviation) et « ET » (pour
Ecart-Type) sont à éviter (« ET » étant employé pour désigner l’erreur-type), de même que l’anglicisme
« deviation standard » pour désigner les écart-types.
4
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
0,2
0,15
Fréquences
0,1
0,05
0
-2,7 -2,4 -2,1 -1,8 -1,5 -1,2 -0,9 -0,6 -0,3 0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 2,4 2,7
Scores z
5
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
de la distribution. On y voit que 95,44% de la population doivent avoir un score z compris entre
-2 et +2.
Tableau 1. Quelques scores z et probabilité associée d’avoir un score inférieur à ces scores z
Scores z -4 -3 -2 -1,96 -1,65 -1,28 -1 -0,5 0
Pourcentage de la
population ayant un 0,003% 0,13% 2,3% 2,5% 5% 10% 15% 30% 50%
score z inférieur
facilement une performance pathologique, ou infranormale pour un patient sur une dimension
donnée. Notons pour conclure cette section que l’expression des performances des patients avec
des chiffres à virgule, qui plus est négatifs, peut rendre plus difficile la communication de ses
résultats au patient. C’est principalement pour cette raison que des auteurs ont préconisé l’usage
d’une autre forme de scores standards, les scores T (µ = 50 ; σ = 10)4 plutôt que des scores z
(Crawford, 2004).
4 10
La formule pour transformer un score brut en score T est : 𝑇 = × (𝑥 − 𝑚𝑥 ) + 50
𝑠𝑥
5
Est-ce bien utile d’ailleurs, pour la prise en charge, de savoir exactement si un enfant à un QI de 40 ou de 36 ?
La mesure doit rester un moyen et non une fin.
6
Ou plus simplement de personnes à qui le test n’est pas destiné. Par exemple des adultes vont plafonner sur un
test destiné à des enfants.
7
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
type de 2 erreurs. Votre patient a fait 24 erreurs soit z = 87. Cette performance est tellement
improbable (au regard de la distribution de fréquence des performances dans la population de
référence), pratiquement impossible, qu’il convient de s’interroger sérieusement sur les causes
qui ont pu y mener. Trois possibilités se présentent. La première est que le patient est
effectivement très très déficitaire sur la dimension mesurée : vous êtes tombé sur un spécimen
extrêmement rare. Dans ce cas de figure, il ne faut pas perdre de vue que le test n’a pas été
originellement pensé pour des personnes aussi déficitaires et il est très probable que la tâche
demandée n’était pas adaptée, manifestement, aux possibilités du patient. Cela revient à faire
passer une WISC à un enfant avec un handicap mental profond ou à peser un éléphant sur une
balance de cuisine. Il faut également garder à l’esprit que par définition, au-delà des seuils
plancher et plafond, le test utilisé n’a plus aucun pouvoir de discrimination entre les sujets (qui
« butent » sur le plafond ou le plancher). Il serait donc peu judicieux de considérer qu’un
patient avec un score z = 8 à cette tâche est « plus déficitaire » qu’un patient avec un score z =
6. Bref, la mesure n’a pas grand sens et il serait bon de considérer la possibilité de mesurer les
performances du patient avec un test plus adapté à son profil. La seconde possibilité, plus
probable en réalité, est que le patient a échoué pour d’autres raisons qu’un déficit important
sur la dimension mesurée. Les explications possibles sont nombreuses : le patient n’a pas
compris la consigne, le patient a un trouble sensoriel, le patient a été dérangé au cours de la
tâche, etc. Là encore, la mesure n’a pas grand sens. Enfin, troisième possibilité, le patient a été
comparé aux normes d’une population qui n’est pas sa population de référence, par exemple,
un enfant dont on calculerait le score z sur la base de normes établies chez l’adulte. En d’autres
termes, le patient n’a pas échoué, c’est l’opération de conversion en scores z qui est fallacieuse.
Nous revenons sur l’importance de bien cibler la population de référence dans la suite de cet
article. Prendre conscience de l’existence de ces seuils plancher et plafond, ce n’est pas
seulement mieux utiliser les scores z, c’est aussi la possibilité pour le clinicien de constater que
son outil de mesure n’était sans doute pas approprié pour mesurer telle dimension avec tel
patient.
7
Nous insistons sur le fait que si certaines variables communément mesurées dans les tests orthophoniques ou
neuropsychologiques (compter les erreurs ou les tentatives, faire tourner un chronomètre) semblent en apparence
ne pas avoir de plafond, ceci est un leurre, conforté par le fait que la conversion arithmétique des chiffres bruts
en scores z aboutit toujours à « un chiffre ». Un effet plafond (ou un effet plancher) est classiquement le résultat
d’une inadéquation entre le niveau de difficulté de la tâche et le niveau d’efficience du sujet. On peut affirmer
qu’un sujet qui réalise une tâche en commettant 22 erreurs là où 99,94% de la population ne dépasse pas 16
erreurs (soit 8, le nombre d’erreurs moyen + 4 écart-types) « plafonne », au sens d’une telle inadéquation, quand
bien même le compteur des erreurs ou le chronomètre continue de tourner.
8
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
contextes de prise de décision, elle peut s’avérer utile pour décider de la suite à donner à la
relation de soin.
Nous avons vu que la conception statistique de la normalité, qui va de pair avec
l’utilisation des scores z, repose sur l’idée que la rareté de certaines performances peut permettre
de les considérer comme pathologiques. A partir de quel niveau de rareté une performance peut-
elle être jugée pathologique ? Le seuil de z < -1,65 (correspondant au 5% des performances les
plus rares / faibles) est souvent considéré comme le seuil numérique définissant le passage de
la normalité à l’anormalité (Amieva, Michael, & Allain, 2011). Il est probable que ce seuil de
5% nous vienne du seuil de la rareté en statistiques tel qu’il a été défini de manière tout à fait
arbitraire par Fisher dans les années 1920 (Field, 2009; Schwartz, 2012). La logique d’un test
statistique est de calculer la probabilité (valeur p) avec laquelle nous observerions un effet X
dans un échantillon si cet effet X n’existait pas dans la population. Si cette probabilité est très
faible, alors le test est significatif et on conclut à l’existence de l’effet X dans la population. A
l’époque de Fisher, les ordinateurs ne sont pas là pour calculer une valeur p exacte pour chaque
test statistique effectué comme c’est le cas aujourd’hui. Il faut donc construire des tables de
probabilités à la main ce qui implique une logique de seuils. Fisher produit donc des tables pour
des probabilités précises : 5%, 2% et 1% de chance. L’usage fera le reste : 5% devient en
sciences humaines et sociales, le seuil de la rareté statistique. Néanmoins, l’idylle s’arrête là.
Aujourd’hui, les statisticiens plaident en faveur d’une diminution de ce seuil de rareté en
sciences humaines et sociales8, de 5% à 5‰ (Benjamin et al., 2017; Button et al., 2013) tandis
que de leur côté, les psychologues de plus en plus portés sur l’étude des troubles cognitifs légers
(MCI en anglais, Mild Cognitive Impairment), s’intéressent à la zone des performances
« limites », comprise entre z < -1,65 et z < -1,28. Une étude de Antinori et al. (2007, citée par
Amieva et al., 2011) a même pris le parti de considérer comme non normaux tous les scores z
inférieurs à -1. L’étude des MCI soulève immanquablement la question de la normalité : sont-
ils des troubles neurocognitifs d’intensité légère ou des performances normales basses
(Godefroy, Diouf, Bigand, & Roussel, 2014) ? Si l’on suit le critère d’Antinori et al (2007), un
coup d’œil à la figure 3 permet de constater que 32% de la population se rend coupable de
performances « rares » (avec des performances z < -1 et par symétrie, z > 1) ! Pas étonnant dans
ce contexte que des psychologues s’alarment et lancent un appel pour « sauver la normalité »
(Frances, 2013). Un changement de domaine permet d’éclairer l’aspect très arbitraire de ces
choix de seuils. Considérons que la taille moyenne des femmes françaises adultes est 163 cm
(écart-type : 5,5 cm) (Sempé, Pédron, & Roy-Pernot, 1979). La taille correspondant à z = -1,65
est 154 cm. Considère-t-on que les femmes mesurant moins de 154 cm ont une taille
pathologiquement petite ? On voit que le caractère pathologique ou non d’un comportement
dépend largement de la nature du comportement mesuré lui-même.
Si 5% constitue encore le seuil de la rareté le plus consensuel chez la plupart des
praticiens, un débat porte sur la manière de répartir ces 5% de performances les plus rares. En
utilisant le seuil z < -1,65, le praticien considère uniquement les 5% des performances basses
les plus rares. Mais de l’autre côté de la distribution normale se trouve des performances tout
aussi rares, bien que hautes (cf. figure 4). Si le praticien considère aussi ces performances hautes
8
Ce seuil étant déjà largement plus bas en sciences physiques.
9
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
comme pathologiques, le voilà qui classe 10% de la population comme ayant des performances
pathologiques au lieu des 5% communément admis. Pour rester dans le périmètre consensuel
des 5%, il doit abaisser son score seuil de manière à avoir 2,5% de performances rares-et-basses
à gauche de la distribution (z < -1,96, cf. figure 4 et tableau 1) et 2,5% de performances rares-
et-hautes à droite de la distribution (z > 1,96). Dans ce cas de figure, un patient ayant un score
z compris entre -1,96 et -1,65 ne devrait pas être jugé pathologique. La décision de faire une
lecture unilatérale de la distribution normale (considérer uniquement les performances basses,
z < -1,65) ou une lecture bilatérale (considérer les performances basses, z < -1,96, et les
performances hautes, z > 1,96) dépend de la dimension évaluée et des habitudes prises dans la
communauté. Par exemple, la mesure de l’intelligence avec les échelles de QI est basée sur une
lecture bilatérale de la distribution : un enfant a un retard mental quand il a un QI inférieur à
709 (z < -2) et une précocité quand il a un QI supérieur à 130 (z > 2).
Figure 4. Scores rares et scores faibles sur une distribution normale théorique.
Un autre facteur influençant le choix d’un score seuil, outre le caractère mesuré, est
l’objectif de la mesure. Il arrive parfois que les tests ne soient pas utilisés « pour eux-mêmes »
mais pour dépister des maladies. Par exemple, les neuropsychologues utilisent souvent le
RL/RI-16, un test initialement conçu pour évaluer la mémoire épisodique, pour dépister la
maladie d’Alzheimer (Amieva, 2016). Si l’objectif premier n’est plus de situer la performance
du patient par rapport à sa population de référence quant à la mémoire épisodique, mais de poser
un diagnostic, ou a minima des hypothèses, quant à la présence de la maladie d’Alzheimer, il
est clair que le score seuil n’implique plus uniquement des considérations sur la rareté des
performances. Il faut procéder à des études poussées pour décider au cas par cas comment un
test donné peut être prédicteur d’une maladie donnée. Il revient aux concepteurs du test de
préciser les usages pouvant être faits du test, comparatif ou diagnostic, les scores seuils à utiliser
9
Plus précisément, le diagnostic de retard mental se fait quand l’enfant cumule un QI < 70 et des difficultés
objectivées d’adaptation sociale.
10
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
selon ces usages et éventuellement les normes à utiliser selon ces usages (cf. plus loin la section
sur les normes).
10
Le salaire tel que 50% de la population touche moins et 50% de la population touche plus.
11
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
distribution des scores fortement asymétrique vers la droite. C’est également le cas de la
plupart des tests mesurant des temps de réponse ou de réaction : il y a toujours un temps
incompressible pour effectuer une tâche qui constitue une barrière physique sur laquelle
viennent buter les performances des sujets les plus rapides. Les choses se compliquent d’autant
plus que les temps de réponses peuvent se distribuer d’une manière approchant la normalité
statistique pour les sujets jeunes et devenir largement non normaux chez les sujets âgés (e.g.,
les distributions des temps de réalisation au TMT B selon l’âge, figure 5). A l’inverse des outils
de diagnostic rapide de l’efficience globale comme le MMSE (Folstein, Folstein, & McHugh,
1975) ou la MoCA (Nasreddine et al., 2005) sont asymétriques vers la gauche, les sujets sains
« plafonnant » près du score maximal.
S’il est toujours possible de transformer ces scores bruts en scores z alors que la
distribution des scores bruts n’est pas normale, il est parfaitement illicite d’utiliser la table de
probabilité de la loi normale. Lorsque la distribution des valeurs est asymétrique, les
correspondances rapportées dans le tableau 1 cessent d’être valides. Il faut alors utiliser les
quantiles. Un quantile est un score tel qu’on a une proportion déterminée de la population (p)
qui précède ce score et une proportion déterminée (1-p) qui suit cette valeur. Le quantile le
plus connu est la médiane qui coupe la distribution de fréquence en deux moitiés égales : si le
score médian à un test est 12 alors cela signifie que 50% des sujets ont un score inférieur ou
égal à 12 et 50% des sujets ont un score supérieur ou égal à 12. Un découpage en deux moitiés
ne permet pas de situer finement une personne donnée, c’est pourquoi les concepteurs des tests
utilisent plus souvent les déciles (9 déciles qui découpent la distribution en 10 dixièmes de
taille égale) ou les centiles (99 centiles qui découpent la distribution en 100 centièmes de taille
12
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
égale). Le premier décile (noté D1) est le score tel que 10% des sujets ont un score inférieur
ou égal et 90% des sujets ont un score supérieur ou égal. Le 95ème centile (noté C95) est le
score tel que 95% des sujets ont un score inférieur ou égal et 5% des sujets ont un score
supérieur ou égal. On voit ainsi que la médiane est à la fois le 5ème décile (D5) et le 50ème centile
(C50). Les quantiles ont l’avantage de pouvoir être utilisés quelle que soit la forme de la
distribution et ils expriment directement la rareté d’un score. Cependant en transformant le
score brut par une information sur son rang dans la distribution, on perd la possibilité de faire
des calculs arithmétiques, par exemple de moyenner les différents scores d’un patient sur
plusieurs tests. En effet, les quantiles sont une échelle ordinale et non une échelle numérique :
l’écart de score bruts entre le 5ème et le 10ème centile n’est pas nécessairement le même que
l’écart entre le 45ème et le 50ème centile.
Prenons un exemple pour illustrer le fait que lorsque la distribution de fréquence n’est
pas normale, les scores z n’expriment plus les proportions indiquées dans la table de
probabilités de la loi normale, ce qui peut augmenter considérablement le risque de faire des
faux-positifs, c’est-à-dire de conclure que la performance du patient est pathologique alors que
ce n’est pas le cas. Imaginons qu’un(e) orthophoniste utilise un test impliquant de mesurer le
nombre d’erreurs que fait le patient. Le test est assez facile et on s’attend à trouver très peu
d’erreurs chez les patients « normaux ». Cinq cents participants ont été testés, la distribution
des résultats est représentée sur la figure 6. Cette distribution est caractérisée par une large
asymétrie vers la droite. Cette asymétrie se retrouve dans le décalage des 3 indicateurs de
tendance centrale vers la droite : le mode vaut 0, la médiane vaut 2 et la moyenne est égale à 3
(s = 3,15). Classiquement, si un patient est dans les 5% des patients faisant le plus d’erreurs
alors sa performance est jugée pathologique. Une analyse de cette distribution montre que le
95ème centile, au-delà duquel se trouvent les 5% des scores les plus rares, correspond à une
performance de 10 erreurs. Seuls 5% de notre échantillon font plus de 10 erreurs au test. Le
10 - 3
score z correspondant à ce score brut est = 2,22. Ainsi, le score z au-delà duquel se trouve
3,15
5% de la population est 2,22 et non pas 1,65 comme le prévoit la table (cf. figure 6). Cette
différence est due à la non normalité de la distribution. Si un(e) orthophoniste utilisait le score
z de 1,65 pour identifier les performances normales et les performances pathologiques, il ou
elle classerait environ 9% des participants dans la pathologie au lieu de 5% !
13
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
Cet exemple démontre le risque important de faire des faux-positifs qu’il y a à utiliser
des scores z sans s’être auparavant assuré que la distribution des scores était normale11.
L’absence de normalité de la distribution peut conduire le praticien à élargir substantiellement,
sans qu’il en ait même conscience, l’étendue classiquement acceptée de l’anormalité des
performances psychologiques. Pourtant, le présupposé selon lequel la distribution des scores
suit une loi normale est tellement prégnant que de nombreux professionnels de la santé
n’expriment plus ce seuil entre normalité et pathologie en centiles (il faut être dans les 5% des
scores les plus extrêmes) mais directement en nombre d’écart-types (il faut être au-delà de 2
écart-types de la moyenne). Ce raccourci pose évidemment problème dès que les distributions
sont non-normales. Dans ces cas, l’utilisation des scores z doit être résolument évitée.
11
L’information sur la normalité de la distribution des scores devrait être indiquée clairement avec le manuel ou
les normes du test.
14
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
connaissons que très rarement la moyenne et l’écart-type d’une population. A la place, les
concepteurs de tests constituent des normes sur la base d’un échantillon représentatif de la
population d’intérêt. C’est l’étape d’étalonnage du test. Le praticien doit être très vigilant à la
manière dont cet échantillon-étalon a été constitué et toujours se poser la question de si la
comparaison entre cet échantillon et le patient qu’il a en face de lui est pertinente. La règle d’or
est que votre patient aurait pu potentiellement faire partie de l’échantillon-étalon. Plusieurs
paramètres doivent être considérés :
- La taille de l’échantillon-étalon est-elle suffisamment importante ? Ci-dessus (et
dans la note de bas de page N°3), nous avons indiqué qu’à défaut de connaître les
paramètres de notre population d’intérêt (moyenne µ et écart-type σ), nous utilisions
dans la formule des scores z les statistiques de l’échantillon-étalon (moyenne m et
écart-type s). Mais si cet échantillon-étalon est de trop petite taille, la moyenne (m)
et l’écart-type (s) utilisés dans la formule seront une mauvaise estimation des
paramètres réels dans la population (µ et σ) et le calcul du score z conduira à une
évaluation biaisée. Cela peut être particulièrement le cas quand la population totale
est divisée en sous-groupes sur la base de variables démographiques. Dans ces cas,
des solutions statistiques accessibles existent consistant à non pas baser le calcul sur
l’assomption d’une distribution des scores suivant la loi normale mais suivant la loi
de Student (voir Atzeni, 2009 ; Crawford & Howell, 1998).
- A quelle date et dans quel pays ont été constituées les normes ? Il n’est pas rare de
voir des praticiens utiliser des tests traduits de manière artisanale pour ensuite
comparer la performance d’un français en 2018 à celles d’américains en 1972.
Calculer le score z d’un individu sur base d’une norme issue d’un autre pays, d’une
autre culture, risque de conduire là encore à une conclusion erronée (Amieva et al.,
2011).
- Les normes constituées sont-elles vraiment représentatives de la population générale
quant à l’âge des individus et leur niveau d’étude ? Constituer des normes se fait
souvent sur la base du volontariat des sujets et ce mode de recrutement
« sélectionne » un profil particulier, généralement plus favorisé sur le plan culturel
et cognitif (Amieva et al., 2011). Or, on comprend bien qu’un élève « normal » sera
jugé déficitaire s’il est comparé à un groupe de très bons élèves. Là encore, le
praticien s’expose à faire des faux positifs, i.e. voir un déficit là où il n’a qu’un
échantillon-étalon non représentatif. Il arrive parfois que l’on compare les
performances du patient à celles d’un sous-échantillon qui lui est apparié sur la base
de caractéristiques démographiques : âge, sexe, niveau d’étude. Etre comparée à des
femmes âgées et diplômées quand on est soi-même une femme âgée et diplômée
plutôt qu’à la population tout venante augmente la précision de la comparaison en
contrôlant la variance indésirable liée au sexe, à l’âge ou au niveau d’étude.
Attention cependant, cette technique a pour corollaire de réduire encore la taille des
échantillons. De plus, dans un objectif diagnostic et non comparatif, la variance liée
à ces variables démographiques n’est pas toujours indésirable, l’âge et le niveau
d’étude étant par exemple prédicteurs de la maladie d’Alzheimer (Amieva, 2016).
15
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
12
Certains auteurs préconisent de plutôt faire l’intervalle de confiance autour de la présumée performance vraie,
voir note de bas de page suivante pour plus de détails.
13
Pour calculer un intervalle de confiance (IC) sur la base de scores bruts (et non des scores z), il faut utiliser la
formule suivante : 𝐼𝐶95 = 𝑥 ± 1,96 × 𝑠 × √1 − 𝑟 où s est l’écart-type de la distribution des scores (omis de la
16
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
Conclusion
L’utilisation des scores z, couplée avec celle de scores-seuils, permet d’aboutir assez
facilement à la conclusion qu’une performance est normale ou pathologique. Cependant, outre
les considérations cliniques qui doivent permettre de nuancer ce type de conclusion binaire, des
limites inhérentes à l’utilisation même des scores z doivent rester sous le radar du praticien.
- La première de ces limites concerne la distribution des scores dans l’échantillon-
étalon : cette distribution doit suivre, au moins approximativement, la loi normale.
Malheureusement, l’information sur la forme de la distribution est rarement
mentionnée dans les manuels des tests, quand ces manuels existent. Heureusement,
il n’est pas très difficile pour un praticien expérimenté qui connaît son outil
formule (2) car dans le cas des scores z, s = 1). Dans cette formule, le signe « ± » suppose qu’on fasse une
addition pour calculer la borne supérieure de l’IC et une soustraction pour calculer la borne inférieure de l’IC. La
partie « 𝑠 × √1 − 𝑟 » de la formule désigne la SEM, l’erreur-type de mesure qui est parfois également indiquée
dans les manuels des tests. Pour calculer l’IC autour de la note vraie estimée plutôt qu’autour de la note
observée, on utilise l’erreur-type d’estimation (SEE) plutôt que la SEM dans la formule, celle-ci valant : « 𝑠 ×
√1 − 𝑟 × 𝑟 ».
14
Notons que cet intervalle, déjà très grand, est calculé sur la base du coefficient de fidelité fournit par les
concepteurs du test. Ce coefficient est calculé sur la base de conditions de passation optimales, dans le but précis
de réduire l’erreur de mesure et d’avoir le meilleur coefficient de fidélité possible. Dans sa pratique quotidienne,
le praticien offrira souvent des conditions moins favorables à son patient, générant davantage d’erreur de mesure
ce qui nous laisse penser qu’en pratique, l’intervalle de confiance dans lequel se trouve la « performance vraie »
du patient pourrait être encore plus grand.
17
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
18
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
performances à l’aide d’un test est souvent utile mais la marque d’un bon praticien est
certainement de savoir y renoncer quand les conditions ne sont pas réunies. Même quand les
conditions sont réunies, la mesure ne saurait être interprétée de manière décontextualisée. Dans
cet article, nous avons délibérément focalisé notre propos sur des aspects psychométriques et
statistiques. Pour autant, il nous paraît essentiel d’insister ici en conclusion sur le fait qu’un
simple score z inférieur à un seuil quel qu’il soit ne doit jamais permettre d’affirmer que le
patient est pathologique ou déficitaire. Le clinicien réunit des informations par différents
moyens : l’observation, l’entretien, les tests en font partie. Le diagnostic est le fruit de
l’intégration et de l’interprétation de toutes ces informations. Une littérature importante, que
nous rejoignons, a mis l’accent sur la nécessité absolue de ne pas réduire le patient à une
performance chiffrée. L’évaluation, en orthophonie ou en psychologie est avant tout une
relation de soin et elle suppose d’abord de reconnaître l’autre comme une personne à part
entière, avec son identité, son histoire et ses particularités. Concluons avec un patient qui
viendrait voir le professionnel avec une plainte de perte d’efficience suite à un accident ou un
traitement. Une évaluation standardisée et un calcul de scores z place le sujet au-dessus du score
seuil de la pathologie que vous avez défini (par exemple, z < -1,65). Que faire de la plainte du
patient si elle n’est pas objectivée par le test ? Il faut se souvenir que toute la mécanique des
scores z repose sur une vision statistique de la normalité qui n’est pas la seule possible. Vue par
le prisme de la normalité fonctionnelle que nous avons évoquée au début de cet article, la plainte
du patient se comprend plus facilement : celui-ci avait une excellente efficience cognitive ou
langagière avant son traitement ou son accident et était au-dessus de la moyenne de son groupe
de référence. Suite au traitement ou à l’accident, la perte d’efficience est bien réelle, d’où la
plainte, mais « invisible » pour le praticien qui s’en tiendrait simplement à ses scores z et à la
normalité statistique.
19
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
Bibliographie
20
Aguert et Capel (2018)
A paraître dans « Rééducation Orthophonique »
21