0% ont trouvé ce document utile (0 vote)
103 vues13 pages

Définition de la psychométrie

Transféré par

Ellya Sohy
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
103 vues13 pages

Définition de la psychométrie

Transféré par

Ellya Sohy
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Nicole Butler

CM Psychométrie
Introduction ......................................................................................................................................1
I. La psychométrie ...................................................................................................................... 1
II. La métrologie ....................................................................................................................... 2
1. Que mes ure-t-on ?.............................................................................................................. 2
2. Comment mesure-t -on ? ..................................................................................................... 2
3. Quel niveau de mesure ? .................................................................................................... 2
4. Comment analyser la mesure ? ........................................................................................... 2
5. Quelles conditions pour pouvoir analyser les mesures ?........................................................ 2
6. Peut-on tout mesurer ? Peut-on mesurer l’amour ? ............................................................... 3

La mesure – théories et distribution ............................................................................................4


I. Pourquoi faut-il multiplier les mesures pour s’approcher du score « vrai » d’une
caractéristique ?................................................................................................................................. 4
II. Notes standardisées ............................................................................................................ 5
1. Les notes z......................................................................................................................... 5
2. Diff érents types de notes standardisées ............................................................................... 5
3. Quel intérêt d’étalonner les résultats à un test ? Quel intérêt de transf ormer les notes brutes en
notes standardisées ? ....................................................................................................................... 6

Qu’est-ce qu’un test ? ....................................................................................................................7


I. Introduction.............................................................................................................................. 7
1. Déf inition............................................................................................................................ 7
2. Etapes de construction d’un test .......................................................................................... 7
II. Les qualités métrologiques (ou psychométriques) d’un test............................................... 7
1. La sensibilité ...................................................................................................................... 7
2. La f idélité ........................................................................................................................... 9
a) Différentes erreurs de mesure ..............................................................................................................................9
b) La fidélité test-retest ............................................................................................................................................ 10
c) Mesure de l’homogénéité du test (ou mesure de l’erreur due au choix des items) .................................. 10
d) L’erreur type de mesure ...................................................................................................................................... 11

3. La validité......................................................................................................................... 11
a) Validité de contenu .............................................................................................................................................. 11
b) Analyses factorielles............................................................................................................................................ 12
c) Validité externe..................................................................................................................................................... 12
d) Validité prédictive ................................................................................................................................................. 12
Nicole Butler

Introduction
Le but du bilan psychologique est d’évaluer (une ou) plusieurs caractéristiques d’un sujet,
de les analyser et de décider des actions à mener.

I. La psychométrie
La psychométrie est une sous-discipline de la psychologie, d’orientation
méthodologique, dont les finalités sont d’étudier la mesure en psychologie et de développer
les méthodes d’évaluation de caractéristiques individuelles.
On connait trois approches en psychologie de la recherche : la psychologie clinique, la
psychologie expérimentale et la psychologie différentielle.
Psychologie clinique Psychologie expérimentale Psychologie différentielle
Etude de cas in vivo Induction de lois générales décrivant Induction de lois générales décrivant
Apprécier ce qu’il y a de singulier le f onctionnement humain le f onctionnement humain
Sont au cœur des préoccupations de Mise en évidence d’un lien de cause à Intérêt pour la variance à des
l’approche clinique : ef f et par l’étude de la réponse à un dif f érences stables entre les individus
- Signif ication stimulus (hypothèse préalable) Pas de variables manipulées
- Implication Mettre à jour des invariances dans les Etude des relations statistiques entre
- Totalité réponses à des situations spécif iques variables repérées et comportements
Situation de f aible contrainte (recueil La variance interindividuelle a le statut Outil : questionnaires, échelles, tests...
large des inf ormations et la moins de variance erreur
Problématique : incapacité à rendre
artif icielle possible) Outil : situation expérimentale compte de la complexité de l’être
Outil : entretien ou observation Problématique : incapacité à rendre humain et de la spécif icité de chacun et
Problématique scientif ique : compte de la complexité de l’être lien cause à ef f et non déterminé à
administration de la preuve et nécessité humain et de la spécif icité de chacun travers la corrélation
de généralisation

La psychométrie est fortement intriquée avec la psychologie différentielle qui décrit et


explique la variabilité individuelle (dans les domaines cognitif, conatif et motivationnel). Les
deux vont se servir mutuellement.
La psychométrie permet de :
Comprendre le
De réduire l’erreur
fonctionnement D’aider au
d’appréciation d’un De faciliter la communication
psychologique, de bâtir développement des
phénomène entre les acteurs
des théories ou les personnes
psychologique
vérifier
Etude de la personnalité L’appréciation d’un La conf rontation aux Les méthodes psychométriques
dans l’explication des phénomène données psychométriques permettent d’établir un pont entre
conduites psychologique, qu’il permet de généralement les interlocuteurs qui peuvent
s’agisse d’un trouble de déf init les contours de échanger un réseau
mental, d’un niveau de son identité et se d’inf ormations, les conf ronter, les
compétences, ou d’un considérer sous un angle inf irmer ou les préciser.
portrait de la personnalité positif Ceci n’est possible que si l’on
est f ondamentalement Ex : renforcement de considère les outils
subjective l’estime de soi psychométriques non comme des
producteurs de f aits authentiques
mais bien comme des ref lets, plus
ou moins déf ormés, d’une réalité
évolutive

1
Nicole Butler

II. La métrologie
1. Que mesure-t-on ?
On mesure des variables et non des constantes.
Exemples : tour de tête, tour de cou, tour de poitrine, tour de taille, tour de main, pointure, hauteur
sous toise, hauteur de jambes...

Les gens diffèrent les uns des autres de manière multiple. Les caractéristiques sur
lesquelles les gens diffèrent des variables (ex : taille, âge, sexe, anxiété...). Par différences
individuelles, on entend toutes les caractéristiques psychologiques sur lesquelles les
individus peuvent différer les uns des autres.
En psychologie, on s’intéresse à des traits latents qui expliqueraient nos comportements.
Il faut, par exemple, trouver des manifestations de ces traits latents, et des indicateurs
pouvant être appréhendés à travers des comportements verbaux et non -verbaux.

2. Comment mesure-t-on ?
Mesurer consiste à évaluer une grandeur.
On mesure la taille ou une distance avec une échelle métrique dont l’unité de mesure est
le mètre ou ses multiples (dam, hm, km...), ou ses sous-multiples (dm, cm, mm...).
L’observation et le bon sens suffisent à déterminer l’instrument et l’unité idéale.
En psychologie, on utilise des outils spécifiques pour évaluer des dimensions latentes
(donc non observables directement) :
• Les tests ;
• Les questionnaires ;
• Les mises en situation (expérimentale)...

3. Quel niveau de mesure ?


On dit que mesurer consiste à évaluer une grandeur. Or, il n’existe pas d’étalon pour
mesurer les différences individuelles (il n’y a pas d’équivalent du système métrique pour
évaluer, par exemple, le niveau d’extraversion d’une personne). Les variables mesurées
n’ont par ailleurs généralement pas de « point zéro » ou ne peuvent être « nulles » (ex :
l’intelligence).

La problématique est de trouver le niveau de mesure le plus pertinent pour pouvoir


discriminer les sujets (fonction par exemple des objectifs de la mesure).

4. Comment analyser la mesure ?


Toute mesure est relative, juger ma taille nécessite de fixer une référence, ou de
déterminer un étalon. En psychologie, toute mesure est normative, c’est-à-dire mise en
relation avec un sujet moyen. Il y a une nécessité d’étalonner les mesures à un test.

5. Quelles conditions pour pouvoir analyser les mesures ?


La mesure est donc obtenue par la comparaison des résultats d’un individu à ceux
d’un groupe de personnes représentatif de la population cible à qui l’instrument
psychométrique a été administré de manière standardisée.

2
Nicole Butler

La standardisation est donc essentielle pour un test psychométrique. Elle concerne :


• Les conditions de passation des épreuves ;
• La cotation (réponse attendue – points attribués) ;
• La population (question de la comparaison).
La standardisation des tests est essentielle à respecter. C’est elle qui donne la valeur aux
tests et permet de réaliser la comparaison : « toutes choses étant égales par ailleurs ». Elle
permet donc de s’assurer que les différences entre les scores observés habituellement et les
scores observés lors de la passation du test ne sont pas la conséquence de variations de la
situation (les événements particuliers à la situation d’évaluation devront donc être pris en
compte lors de l’interprétation d’un test).

6. Peut-on tout mesurer ? Peut-on mesurer l’amour ?


Modèle de l’amour sur quatre dimensions :
• L’engagement : relation perçue stable à long terme, devant se perpétuer malgré
les difficultés à long terme ;
• L’intimité : capacité de compréhension mutuelle, partage et soutien entre
partenaires ;
• La passion érotique : niveau d’attirance physique et sexuelle envers le
partenaire ;
• La passion romantique : investissement mental dans la relation, présence de
l’être aimé dans les pensées.
Il y a de nombreuses corrélations significatives ente le modèle de l’amour sur quatre
dimensions et les concepts de fidélité dans le couple, de satisfaction amoureuse et de
satisfaction sexuelle.

3
Nicole Butler

La mesure – théories et distribution


Exemple de la mesure de la taille humaine :
Opération très simple en apparence :
1. Définir un ensemble de conditions sous lesquelles doit être réalisée la
mesure ;
2. Définir une procédure de mesure ;
3. Choisir une échelle de mesure appropriée ;
4. Effectuer l’opération de mesure
Question de la précision de la mesure :
 Une personne est au-dessous d’une taille de deux mètres [mais comme la
plupart des gens]
 Cette personne mesure 175 cm
 Cette personne mesure 1753,768 mm : mesure très précise mais cette
précision est apparente et fallacieuse. Les personnes se tassent entre
le matin et le soir sous l’effet de la pesanteur + problème de posture,
maintenir la tête droite...
Quelle que soit la valeur réelle obtenue, nous savons qu’il n’est pas possible de dire
avec une confiance absolue que c’est la taille de la personne.
Lors d’une évaluation ultérieure il y a la possibilité d’obtenir une valeur très légèrement
différente.
Mais nous ressentons qu’il est tout à fait raisonnable de supposer que les gens « ont »
une taille qui est relativement stable (qui ne varie pas au hasard d’un moment à l’autre) et
qu’il est utile d’en obtenir des mesures même si elles sont imprécises.

Cette supposition forme la prémisse qui sous-tend ce qui est connu comme la théorie
classique des tests. Cette approche part du principe que les gens possèdent des quantités
spécifiques de traits latents (aptitudes, extraversion). Si nous parvenions à mesurer
directement cette « quantité » spécifique, nous obtiendrons la valeur « vraie » (« score
vrai ») de ces traits.
Mais en pratique, c’est une évaluation indirecte et imprécise. Donc : mesure = score
faillibles = score vrai ± une quantité d’erreur.

I. Pourquoi faut-il multiplier les mesures pour s’approcher du


score « vrai » d’une caractéristique ?
Hypothèse : les erreurs sont aléatoires, la taille mesurée est parfois trop grand et parfois
trop petite.
Conséquences : si nous prenons un grand nombre de mesures et que nous calculons leur
moyenne, les erreurs devraient tendre à s’annuler.
En multipliant les mesures, on obtient une distribution des mesures qui dans une grande
variété de cas (physiques ou psychologiques) tend à se rapprocher d’une distribution
normale. Dans la théorie de la mesure on va postuler que les traits mesurés proviennent
d’une variable dont la distribution sous-jacente est normale.

4
Nicole Butler

Il faut postuler la normalité d’une variable parce qu’une distribution normale fournit une
distribution de référence standards dont les propriétés sont connues. C’est une distribution
symétrique, donc moyenne = médiane = mode.
Un test mesure une caractéristique et lui attribue une note brute. Ces notes brutes sont
transformées à l’aide d’étalonnage en notes standardisées afin de permettre leur
interprétation.

II. Notes standardisées


1. Les notes z
(𝑠𝑐𝑜𝑟𝑒 𝑏𝑟𝑢𝑡−𝑚𝑜𝑦𝑒𝑛𝑛𝑒 )
Les notes standardisées, aussi appelées notes z : 𝑛𝑜𝑡𝑒 𝑧 = . Ses
𝑒𝑐𝑎𝑟𝑡−𝑡𝑦𝑝𝑒
propriétés sont que la moyenne est égale à 0 et que l’écart-type est égal à 1. Si on connait
la moyenne et la variance dans une population donnée, on peut se situer dans cette
population.
Exemple : si on obtient la note de 15 en psychométrie et qu’on sait que al moyenne de la promotion
des L3 est de 12 et l’écart-type de 3, alors on peut se positionner par rapport au reste de la promotion
à condition de supposer que cette performance provient d’un trait sous -jacent qui se distribue
normalement.

Si les notes brutes ne se distribuent pas normalement (du fait de la population


échantillonnée ou du choix des mesures), il est toutefois possible de les convertir en notes z
normalisées en les convertissant en premier lieu en rangs percentile puis en notes z
normalisées.

2. Différents types de notes standardisées


Elles sont dérivées des notes z :
• La note z est multipliée par l’écart-type pertinent,
• La moyenne appropriée est ajoutée au produit,
• La valeur résultante est arrondie au nombre entier le plus proche
Moyenne Ecart-type
Notes T 50 10
Notes Sten 5,5 2
Notes Stanines 5 2 = (écart-type) z + (moyenne)
Notes « standards » 100 15
Notes d’échelle 10 3

5
Nicole Butler

Exemple : le QI est mesuré avec une note standardisée, note « standard ».

En général, ces notes sont obtenues à partir de distributions normalisées (en utilisant des
transformations en percentiles). C’est pourquoi elles sont considérées comme des « notes
standardisées normalisées ». Elle peut également être calculée à partir des scores bruts et
des écarts-types bruts. Dans ce cas, elles seront normalement distribuées uniquement si les
scores bruts le sont.
Conclusion : les rangs percentiles permettent de situer un sujet (une caractéristique de ce
sujet) par rapport à une population de référence.

3. Quel intérêt d’étalonner les résultats à un test ? Quel intérêt de


transformer les notes brutes en notes standardisées ?
L’intérêt est de situer une personne dans un échantillon de référence, analyser l’évolution
d’une personne dans le temps (à 6 ans, à 9 ans...), comparer les mesures obtenues à
plusieurs épreuves et déceler les forces et faiblesses (score brut de 97 en raisonnemen t
verbal et de 18 en raisonnement spatial vs. notes z de + 1,2 et de + 1,3) mais également
calculer des indices globaux.

6
Nicole Butler

Qu’est-ce qu’un test ?


I. Introduction
1. Définition
« On appel test mental une situation expérimentale standardisée servant de stimulus à
un comportement. Ce comportement est évalué par une comparaison statistique avec celui
d’autres individus placés dans la même situation, permettant ainsi de classer le sujet
examiné, soit quantitativement, soit typologiquement » (Pichot, 1949).
On veux que les individus présentent les mêmes caractéristiques, mais celles-ci doivent
être pertinentes pour le test. De plus, on veux que les tests soient passés dans les mêmes
conditions de présentation, de passation et avec les mêmes critères de notation.
Les différentes définitions sont édifiées sur deux postulats :
• 1er postulat : on fait l’hypothèse que les dimensions mesurées existent quelque part
en nous et qu’elles expliquent nos comportements parce qu’elles en seraient la
source (ex : existence de l’intelligence, de la personnalité...) ;
• 2ème postulat : il existe des différences inter-individuelles sur ces dimensions.
Les facteurs de personnalité existent chez tous les êtres humains mais ils ont, chez les
différents individus, une intensité différente.

2. Etapes de construction d’un test


Etapes :
• Déterminer avec précision la compétence à évaluer ;
• Choisir une situation expérimentale nécessitant la mise en œuvre de la compétence
à évaluer (tâche à effectuer ; problème à résoudre, questionnaire...) et déterminer
très précisément les conditions d’application et de notation de la situation
expérimentale (standardisation) ;
• Constituer un échantillon aussi représentatif que possible de la population de sujets
à laquelle on s’intéresse, le soumettre à la situation expérimentale et établir la
distribution statistique des performances ou des comportements selon les cas.
Ainsi, la performance ou le comportement produit pas tous sujets auquel on applique le
test est comparé à la distribution de l’échantillon. La mesure n’exprime donc qu’une position
statistique dans une distribution. Reste au psychologue à interpréter la signification de
cette positions d’un point de vue psychologique.

II. Les qualités métrologiques (ou psychométriques) d’un test


1. La sensibilité
La sensibilité est le pouvoir discriminant d’un test.
La sensibilité d’un test représente le pouvoir classant du test, sa capacité à discriminer les
éléments testés lorsqu’ils diffèrent, et sa capacité à regrouper ces éléments lorsqu’ils
convergent ou sont similaires.

7
Nicole Butler

La plupart du temps, on rencontre un problème de formulation ou de choix des items


(nature, nombre, modalité de réponse). Le contexte peut également jouer ( ex : concours où
les candidats se présentent sous un jour idéal).

Elle s’apprécie visuellement par l’analyse de la distribution des observations. Elle


s’apprécie statistiquement par le calcul des indices d’asymétrie (skewness) et
d’aplatissement (kurtosis) ou d’un test comme le Shapiro-Wilk (N<50) ou le Kolmogorov-
Smirnov (grands échantillons).
Un test qui n’est pas sensible ne peut être ni fidèle ni valide. On rencontre un problème
classique de distribution observée avec les effets de plancher et de plafond.

Certains instruments psychométriques ont pour objet le dépistage d’une caractéristique


spécifique mesurée de manière dichotomique du type présence / absence (ex: avoir ou non
un trouble de santé mentale...). On attend d’un bon instrument qu’il soit en mesure de détecter
correctement les cas qui possèdent effectivement cette caractéristiques (sensibilité) et
d’être en mesure d’identifier de manière adéquate les individus ou les cas qui ne
possèdent pas la caractéristique (spécificité).
La sensibilité et la spécificité sont deux indices indépendants qui permettent d’établir
la probabilité qu’un instrument psychométrique remplisse correctement ces deux fonctions.
Les indices de sensibilité et de spécificité s’expriment par une valeur comprise entre 0 et
1:
• Valeur de 0 : traduit comme une complète incapacité à détecter correctement la
présence ou l’absence de la caractéristique mesurée ;
• Valeur de 1 : se traduit par une parfaite capacité de détection ou de discrimination .
La spécificité n’est pas garante de sensibilité et inversement. Un instrument
psychométrique peut avoir une bonne sensibilité mais une mauvaise spécificité : on dira alors
qu’il a une bonne capacité à détecter les individus évalués ayant une caractéristique donnée,
mais il identifie comme tel plusieurs individus ne l’ayant pas.
La sensibilité est évaluée par la proportion de personnes identifiées par l’outil comme
ayant la caractéristique donnée (résultat positif ) parmi les personnes possédant réellement
cette caractéristique (« cas »). C’est ce que l’on appelle les vrais positifs.
Un instrument présente un problème de sensibilité lorsqu ’une bonne parie des personnes
possédant réellement la caractéristique donnée (« cas ») sont identifiées par l’outil comme
n’ayant pas cette caractéristique (résultat négatif ). Ces cas identifiés incorrectement / à tort
sont appelés faux-négatifs.

8
Nicole Butler

La spécificité est déterminée par la proportion de personnes identifiées par l’outil n’ayant
pas une caractéristique donnée (résultat négatif) parmi les personnes n’ayant pas réellement
cette caractéristique (« non cas »). C’est ce qu’on appelle les vrais négatifs.
Un instrument psychométrique ayant un problème de spécificité identifie des sujets qui ne
possèdent pas réellement une caractéristique donnée comme ayant la caractéristique. Ces
erreurs de discrimination sont appelées les faux positifs.

Statut réel
Cas Non-cas Total
VP (vrais FP (f aux
Résultat

Positif VP+FP
positif s) positif s
FN (f aux VN (vrais
Négatif négatif s) négatif s)
FN+VN

Total VP + FN FP + VN

VP VN
Sensibilité = Spécificité =
VP+FN VN +FP

2. La fidélité
Les instruments psychométriques ne sont pas parfaits : la mesure qu’ils fournissent
contient nécessairement une certaine part d’erreur. Il est possible de quantifier la part
d’erreur de chaque instrument. La notion de fidélité consiste essentiellement en
l’estimation de cette erreur de mesure : le concept de fidélité est intimement lié au calcul
de l’erreur de mesure.
La fidélité d’un instrument psychométrique représente le degré de précision et de
constance de ses scores. La précision fait référence à la capacité à produite un score observé
qui est le plus proche possible du score vrai de la personne évaluée. La constance fait
référence à l’obtention de résultats hautement similaires lorsqu’une personne évaluée à l’aide
du même instrument psychométrique à deux moments dans le temps. Plus un instrument est
fidèle, moins il contient d’erreur de mesure et donc plus le score observé (soit le résultat du
test) est proche du score vrai de la personne évaluée.
a) Différentes erreurs de mesure
Pour une erreur de mesure aléatoire, son origine est fluctuante, c’est-à-dire multiple,
indéfinie, non maitrisable. Ses variations sont liées à la fatigue, la maladie, l’humeur, ou à la
motivation face à la tâche... mais également aux conditions de passation,
environnementales, l’attitude de l’administrateur, les erreurs de cotation...
L’erreur de mesure systématique est invariablement reproduite à chaque mesure, c’est-
à-dire constante, contrôlable. Elle peut être liée à un nombre trop faible d’items ou encore au
fait de chronométrer : on ne mesure par exemple plus uniquement la compétence en calcul
mais la disposition du patient au stress.
On estime la fidélité grâce à la stabilité et l’homogénéité. On calcule l’erreur de mesure
avec l’erreur-type de mesure et un intervalle de confiance.

9
Nicole Butler

b) La fidélité test-retest
Un test appliqué plusieurs fois à une même personne devrait pouvoir fournir la même
évaluation à deux moments rapprochés dans le temps. L’étude de la constance des
résultats entre la première évaluation (test) et la seconde (retest).
La proportion de variance partagée entre les scores au test et au retest représen te la
variance du score vrai, alors que la proportion de variance non-partagée sera
attribuable à l’erreur de mesure. Elle est calculée à partir de la corrélation entre les deux
évaluations réalisées. La durée de l’intervalle de temps entre les deux évaluations joue sur
l’appréciation du coefficient de corrélation :
• Coefficient de confiance (moins de deux mois) : > 0,80
• Coefficient de stabilité (plus de deux mois) : 0,60.
Selon certains chercheurs, la stabilité test-retest serait un meilleur indicateur de la
qualité métrique d’un instrument que ne le sont les autres indices de fidélité (McCrae,
Kurtz, Yamagata & Terracciano, 2011). Cependant :
• Difficulté de mise en place : couteux, participation, mortalité expérimentale... ;
• Influence de la première passation sur la seconde (particulièrement dans les tests
de performance) si l’intervalle entre les deux passations est trop courte ;
• Effet de maturation possible (évolution du score vrai de la personne liée à l’effet du
temps qui passe) si l’intervalle entre les deux passations est trop long ;
• Ne peut s’appliquer qu’aux variables traits (variables dispositionnelles et non
situationnelles) qui sont stables dans le temps.
c) Mesure de l’homogénéité du test (ou mesure de l’erreur due au choix des
items)
❖ Méthode des formes équivalentes ou formes parallèles
Il existe parfois deux formes parallèles au même test (ex : EPI [Inventaire de Personnalité
de Eysenck]). L’estimation de la fidélité obtenue en corrélant deux formes équivalentes
s’appelle la fidélité des formes parallèles et le coefficient de corrélation s’appelle le
coefficient d'équivalence. C’est une méthode lourde et souvent associée à la question de la
stabilité dans le temps.
❖ Méthode de bissection
Cette méthode implique de comparer deux moitiés d’un même instrument
psychométrique comme s’il s’agissait de deux versions parallèles . On s’épare l’instrument
(ou l’échelle) en deux parties égales et on calcule la corrélation entre les scores
composites obtenus à chacune des deux moitiés.
Il est possible de diviser le test de différentes façons :
• La méthode première moitié / deuxième moitié n’est pas idéale en raison d’une
équivalence discutable des deux parties dues à des facteurs tels que la fatigue des
répondants ou des différences de difficulté des items ou épreuves ;
• La méthode de répartition au hasard nécessite de prendre en considération la
moyenne de corrélation entre toutes les partitions par moitié d’un test ;
• La méthode pairs / impairs s’avère souvent la plus appropriée.

10
Nicole Butler

Le résultat obtenu par la méthode de bissection tend à sous-estimer la fidélité réelle de


l’instrument dans son ensemble, il est possible de corriger ce résultat par la formule de
Spearman-Brown. Pour obtenir cette estimation, on applique la formule suivante (où rX,Y est
le coefficient de corrélation r de Bravas-Pearson calculé entre les deux moitiés d’items) : 𝑟̂ =
2×𝑟𝑋 ,𝑌
.
1+𝑟𝑋 ,𝑌

❖ Méthode des covariances : étude de la circonstance interne


L’alpha de Cronbach permet de calculer la consistance interne à partir du rapport entre la
part de variance de chaque item et la variance de l’ensemble des scores de l’échelle. C’est
l’indice de fidélité le plus utilisé aujourd’hui et le plus facile à obtenir. Il varie entre 0 et 1 :
une valeur supérieure à 0,70 est interprétée comme une bonne consistance interne et
une bonne fidélité (souvent de manière abusive. Le défaut de cette méthode est qu’elle est
sensible au nombre d’items.
d) L’erreur type de mesure
L’erreur type de mesure (ETM) donne une indication probabiliste sur l’intervalle dans
lequel se trouve le score « vrai ». 𝐄𝐓𝐌 = é𝐜𝐚𝐫𝐭 − 𝐭𝐲𝐩𝐞 × ඥ(𝟏 − 𝒓) => fidélité élevée =
erreur de mesure faible. On choisira prioritairement le coefficient de corrélation test-retest
pour le calcul de l’ETM.
L’ETM fournit le moyen direct d’estimer les limites de confiance entourant le score fourni
par les tests. Les bornes de l’intervalle de confiance sont toujours déterminées en fonction
de l’erreur-type de mesure et d’un seuil de probabilité (degré de confiance que nous
souhaitons avoir).

3. La validité
Le test mesure-t-il bien ce qu’il est censé mesurer ? Y a-t-il un légitimité à calculer un (ou
des) score(s) général(aux) ?
a) Validité de contenu
Elle permet de montrer que les items choisis pour le tes sont représentatifs de l’ensemble
des items susceptibles de mesurer le trait étudié. Il ne suffit pas de montrer que les items
choisis relèvent bien du domaine exploré, encore faut-il s’assurer qu’ils balaient bien

11
Nicole Butler

l’ensemble de ce domaine. La validité de contenu concerne la pertinence du contenu du test


estimée par des « professionnels ».
b) Analyses factorielles
On cherche à déterminer comment les items s’organisent autour de grandes dimensions
pour lesquelles il sera désormais possible de calculer des scores globaux. Il s’agit d’observer
les corrélations entre une variable manifeste et un facteur latent.

c) Validité externe
On parle différencie :
• Validité convergente : on fait passer le test à valider en même temps que d’autres
outils mesurant le même concept ou un concept proche. On s’attend à des
corrélations fortes et positives ;
• Validité discriminante : on fait passer le test à validité en même temps que d’autres
outils mesurant d’autres concepts différents. On s’attend à des corrélations faibles
voire nulles.
d) Validité prédictive
Le test permet-il de prédire la performance qu’obtiendrait le sujet dans une autre situation
bien spécifique ? Exemple avec un test d’intelligence pour enfants ?

12

Vous aimerez peut-être aussi