Chapitre 7
Analyser la force d’association
entre deux variables
Sommaire
1. ρ ou r de Bravais-Pearson
2. Régression linéaire simple
3. ρ ou rs de Spearman
4. 2 d’indépendance et indices Phi ( ) ou V de Cramer
Les tests que nous allons décrire dans ce chapitre cherchent à
quantifier ici le degré de liaison entre deux variables. Ces tests portent
sur la mise en évidence d’un lien, d’une association entre deux variables.
Lorsque les deux variables sont de même nature, nous utiliserons les
mesures suivantes (voir figure 7.1) :
Figure 7.1 – Choisir le test lorsque nous souhaitons analyser
la force d’association entre deux variables.
• La corrélation linéaire de Bravais-Pearson ρ ; r : lorsque les deux variables sont
numériques et normalement distribuées.
• La corrélation de Spearman (ρ ; r) : lorsqu’une des deux distributions (ou les deux)
sont numériques mais pas distribuées normalement ou lorsque les deux variables sont
ordinales.
• Les indices Phi ( ) ou V de Cramer : lorsque les deux variables sont nominales.
D’autres tests sont accessibles lorsque les deux variables ne sont pas
de même nature (par exemple, une variable est nominale, l’autre est
numérique, non détaillés ici).
1. ρ ou r de Bravais-Pearson
1.1 Rappel de cours
Le test de corrélation de Bravais-Pearson consiste à tester l’existence
d’une relation linéaire entre deux variables quantitatives (ou
numérique). Lorsque le test est effectué sur une population, le symbole
devient ρ et se prononce « rho ». Lorsque le test est effectué sur un
échantillon, le symbole devient r. Nous détaillons ici la démarche pour
un échantillon.
1.1.1 Méthode de calcul par le biais de la covariance
※ Étape 1 : poser les hypothèses statistiques
Question de recherche : Y a-t-il un lien entre le temps passé au
travail et le temps passé dans ses loisirs ?
• H0 = Le temps de loisir n’est pas dépendant du temps de travail.
Les variables n’entretiennent aucune relation linéaire.
Le résultat du test mettra à l’épreuve cette hypothèse et nous précisera
quelle est la probabilité d’avoir observé les données que nous avons
obtenues si H0 est vraie (quelle est la probabilité d’observer les
différences que nous observons si en réalité il n’y a pas de différence
entre les populations). Si cette probabilité n’est pas jugée suffisamment
rare, nous ne pourrons pas rejeter H0 à l’issue du test. Nous conclurons
que les données ne sont pas incompatibles avec cette hypothèse
d’absence de différence statistique. Si cette probabilité est suffisamment
rare, nous rejetterons cette hypothèse H0 pour retenir :
• H1 = Il existe une liaison linéaire significative entre les deux
variables (hypothèse bilatérale).
Note. Puisque nous ne précisions pas le sens de la liaison attendue (positive ou
négative), l’hypothèse est non orientée, donc bilatérale. Si nous avions précisé : « il
existe une liaison linéaire positive (ou négative) significative entre les deux variables »
(nous nous attendons à ce que les variables évoluent dans le même sens ou en sens
inverse), l’hypothèse serait alors orientée, donc unilatérale.
※ Étape 2 : calcul de la valeur de décision (r)
La première étape consistera à calculer la moyenne et l’écart-type
pour chaque série de données en appliquant la démarche décrite
chapitre 2. Puisque nous effectuons le test sur un échantillon (et non une
population), nous utiliserons la version de l’écart-type adapté à un
échantillon (s) et non la version adaptée à celle d’une population (σ).
Ainsi, nous diviserons la somme des carrés des écarts à la moyenne par
N – 1 (et non pas N). Une fois ces informations obtenues, la deuxième
étape consistera à soustraire, pour chacune des deux séries, chaque
valeur à sa valeur moyenne.
Exemple
En commençant avec la série x (« Temps travail »), nous remplissons la colonne « x
– » du tableau ci-contre, en prenant une à une les valeurs de la série x auxquelles
nous retrancherons la moyenne de cette série (soit 7.35). 9.72 – 7.35 = 2.37 et
ainsi de suite. Nous appliquons la même démarche pour la série y (« Temps
Loisir »). Pour cette série, la moyenne est égale à 1.97. Ainsi, dans la colonne «
y– », nous calculerons 1.2 – 1.97 = – 0.77 et ainsi de suite.
Il faut ensuite calculer le produit des écarts à la moyenne, avant de
faire la somme de ces produits.
Exemple
Nous n’avons plus qu’à multiplier ces écarts et noter les résultats obtenus dans la
colonne « (x – ) (y – ) ». Ainsi, 2.37 × – 0.77 = – 1.82 et ainsi de suite.
Ainsi, A(x – ) (y – ) = (-1.82) + (-14.33) + (-0.22) + (-0.87) + (-6.80) + (-0.78) +
(-0.08) + (-3.72) = -28.63.
Nous pouvons maintenant calculer la covariance, dont la formule est
détaillée dans le formulaire. Nous utilisons la version pour échantillons
ici, nous divisons donc par N – 1 (et non pas N).
Exemple
Pour obtenir le coefficient de corrélation r de Bravais-Pearson, nous diviserons donc
la covariance par le produit des écarts-types des deux séries de données (voir
formulaire). S’ils ne sont pas fournis, il faudra suivre la démarche décrite dans le
chapitre 2 pour les obtenir (en utilisant la version pour échantillons ou populations en
fonction de la situation).
Exemple
La valeur de ce coefficient est toujours comprise entre –1 et +1. Son signe indique le
sens (positif ou négatif) de la corrélation tandis que sa valeur indique l’intensité de la
corrélation (voir figure 7.2).
Figure 7.2 – Interpréter un coefficient de corrélation
de Bravais-Pearson.
Exemple
Dans notre exemple, le résultat est négatif, ce qui signifie que la corrélation est
négative. Ainsi, les deux variables évoluent dans le sens inverse : plus les individus
passent du temps au travail, moins ils en passent pour leurs loisirs personnels (ou
alors : moins les individus passent du temps au travail, plus ils en passent pour leurs
loisirs personnels). Toutefois, avant d’affirmer une telle conclusion, nous devons
d’abord savoir si le test est significatif ou non.
※ Étape 3 : lecture de la valeur critique à l’aide de la table
de Bravais-Pearson
Nous allons maintenant comparer cette valeur (rcalculé) au seuil que
nous allons lire dans la table du r de Bravais-Pearson (rcritique). Pour
obtenir la valeur du rcritique, il faut déterminer le nombre de degrés de
libertés (ou ddl), correspondant au nombre de paires données – 2 (soit le
nombre de sujets inclus ayant chacun 2 mesures – 2, correspondant ici
au nombre de variables, qui sera toujours égal à deux pour une analyse
de corrélation). Il suffit ensuite de se positionner sur la ligne
correspondante pour aller lire la valeur critique en fonction de
l’hypothèse posée et du seuil de risque (α) choisi.
Exemple
Nous souhaitions vérifier l’hypothèse selon laquelle il existe une liaison linéaire
significative entre les deux variables, autrement dit une hypothèse non orientée,
donc bilatérale.
ddl = 8 – 2 = 6 (car nous avons bien 8 paires de données – 2 = 6). Nous allons donc
nous positionner sur la sixième ligne. La valeur du r critique correspondant au seuil
α = 5 % pour un test bilatéral est de 0.707.
※ Étape 4 : Prise de décision
H0 sera rejetée si |rcalculé| > rcritique. Ainsi, lorsque le rcalculé considéré
en valeur absolue (c’est-à-dire en faisant abstraction de son signe) est
(strictement) supérieur à la valeur de rcritique trouvée dans la table, le
résultat du test est significatif.
Exemple
|rcalculé| (0.90) > rcritique (0.707). H0 peut donc être rejetée au seuil α < 5 %
(hypothèse bilatérale). Le résultat du test de Bravais-Pearson est significatif, r =
-.90 ; p < .05. Ainsi, plus les individus passent du temps au travail, moins ils en
passent pour leurs loisirs personnels (ou alors : moins les individus passent du
temps au travail, plus ils en passent pour leurs loisirs personnels).
1.1.2 Variante de la formule de la corrélation de Bravais-
Pearson
※ Étape 1 (hypothèses statistiques) : elle est similaire
à précédemment.
※ Étape 2 : calcul de la valeur de décision (r)
Vous pouvez aussi être amené à rencontrer la version suivante de la
formule de Bravais Pearson :
La première étape consistera à calculer la moyenne et l’écart-type
pour chaque série de données. Une fois ces informations obtenues, la
deuxième étape consistera à soustraire, pour chacune des deux séries,
chaque valeur à sa valeur moyenne.
Exemple
En commençant avec la série x (« Temps travail »), nous remplissons la colonne « x
– » du tableau ci-contre, en prenant une à une les valeurs de la série x auxquelles
nous retrancherons la moyenne de cette série (soit 7.35). 9.72 – 7.35 = 2.37 et ainsi
de suite. Nous appliquons la même démarche pour la série y (« Temps loisir »). Pour
cette série, la moyenne est égale à 1.97. Ainsi, dans la colonne « y – », nous
calculerons 1.2 – 1.97 = – 0.77 et ainsi de suite.
Il faut ensuite calculer les écarts des observations à la moyenne au
carré pour les deux séries de données avant de faire la somme de ces
quantités. Nous avons calculé les écarts à la moyenne à l’étape
précédente, nous n’avons plus qu’à mettre au carré ces écarts pour les
deux séries.
Exemple
Pour la série x (« Temps travail »), 2.372 = 5.62 et ainsi de suite. Pour la série y
(« Temps loisir »), – 0.772 = 0.59 et ainsi de suite.
(x – )2 = 5.62 + 26.51 + 0.23 + 3.72 + 24.02 + 13.53 + 0.07 + 10.70 = 84.41
(y – )2 = 0.59 + 7.74 + 0.22 + 0.20 + 1.93 + 0.05 + 0.10 + 1.29 = 12.12
Il faut enfin calculer le produit des écarts à la moyenne, avant de faire
la somme de ces produits.
Exemple
Nous n’avons plus qu’à multiplier ces écarts et noter les résultats obtenus dans la
colonne « (x – ) (y – ) ». Ainsi, 2.37 × – 0.77 = – 1.82 et ainsi de suite.
Ainsi, A(x – ) (y – ) = (– 1.82) + (– 14.33) + (– 0.22) + (– 0.87) + (– 6.80) + (–
0.78) + (– 0.08) + (– 3.72) = – 28.63.
Nous pouvons maintenant calculer le r de Bravais-Pearson.
Exemple
Les étapes 3 (lecture de la valeur critique) et 4 (prise de décision)
restent similaires à précédemment.
Exercices
Quiz pour démarrer
Exercez-vous en ligne.
http://dunod.link/stapsyneu21
Exercice 7.1.1
Un psychologue souhaite savoir s’il existe un lien entre les capacités
de flexibilité cognitive (la capacité de changer de raisonnement ou de
comportement, à passer d’une opération cognitive à une autre pour
s’adapter aux circonstances, aux contraintes) et d’empathie (la capacité à
comprendre et à ressentir les expériences affectives d’autrui). Pour cela,
le psychologue administre une épreuve de flexibilité et une épreuve
d’empathie à un échantillon de 11 participants. Les participants
obtiennent un score sur 20 points à l’issue des deux épreuves (plus celui-
ci est élevé, plus le niveau de flexibilité/d’empathie est élevé). Le
psychologue cherche à quantifier le degré de liaison, d’association entre
les mesures de flexibilité et d’empathie. Calculez le coefficient de
corrélation linéaire de Pearson et déterminez s’il existe une relation
linéaire significative au seuil α < .05. Interprétez le résultat.
Note. Selon la méthode et la formule utilisées (calcul du coefficient à partir de la
covariance ou non, voir formulaire), vous n’avez pas besoin de toutes les colonnes
vides. Les deux méthodes sont détaillées dans le corrigé).
Exercice 7.1.2
Soient deux variables quantitatives x et y issues de deux échantillons,
dont les valeurs sont données dans le tableau ci-après.
Note. Selon la méthode et formule utilisées (calcul du coefficient à partir de la
covariance ou non, voir formulaire), vous n’avez pas besoin de toutes les colonnes
vides. Les deux méthodes sont détaillées dans le corrigé).
1. Représentez graphiquement le nuage de points. Quelle relation
existe-t-il entre x et y ?
2. Calculez le coefficient de corrélation linéaire de Bravais-
Pearson (hypothèse bilatérale).
3. Que pouvez-vous conclure sur la base du coefficient de
corrélation linéaire ?
Exercice 7.1.3
Un psychologue étudie l’association entre la mémoire verbale et la
mémoire visuo-spatiale. Pour cela, il administre une épreuve pour
mesurer les capacités mnésiques verbales et visuo-spatiales à un
échantillon de 10 adolescents de 16 ans. Les conditions d’applications
des tests paramétriques sont remplies. Le psychologue souhaite vérifier
s’il existe une liaison positive entre les deux variables. Les résultats
obtenus par ce protocole bivarié sont présentés dans le tableau suivant :
Note. Selon la méthode et la formule utilisées (calcul du coefficient à partir de la
covariance ou non, voir formulaire), vous n’avez pas besoin de toutes les colonnes
vides. Les deux méthodes sont détaillées dans le corrigé).
1. Représentez graphiquement les résultats obtenus par le
protocole bivarié sous la forme d’un nuage de points.
Interprétez ce nuage de points.
2. Calculez le coefficient de corrélation linéaire entre le niveau
de mémoire verbale et visuo-spatiale. Vérifiez si le test est
significatif au seuil de 2.5 %. Interprétez le résultat.
Vous voulez continuer à vous exercer sur la corrélation de Bravais-Pearson ? D’autres
calculs similaires sont proposés dans les entraînements sur la régression linéaire !
2. Régression linéaire simple
2.1 Rappel de cours
La régression linéaire simple est parfois considérée comme une
extension de la corrélation linéaire de Bravais-Pearson, utilisée pour
expliquer ou prédire les valeurs d’une variable numérique (y) à
partir d’une autre (x). Utilisons cette analyse sur les données décrites
dans le rappel de cours précédent (section ρ ou r de Bravais-Pearson)
pour nous demander si le temps de travail des individus prédit leurs
temps de loisir. Dans cette situation, le temps de travail est donc notre
« variable explicative » (x) et le temps de loisir notre variable
« variable à prédire » (y). Nous nous demanderons : pour chaque
changement d’une unité en x (temps de travail), de combien changera la
valeur attendue en y (temps de loisir) ?
2.1.1 Équation de régression : pente de régression (slope,
ß1)
Pour connaître la pente de régression, il faut commencer par calculer
le coefficient de corrélation de Pearson des deux séries en appliquant
la démarche décrite dans la section précédente puis appliquer :
…où r correspond au coefficient de corrélation de Pearson des séries
x et y, sy et sx correspondent aux écarts-types de la série y et x.
Exemple
Nous avions obtenu r = –0.90. Les écarts-types de la série y et x étaient égaux à
sy = 1.31 et sx = 3.47. Nous posons donc :
Un coefficient β1 = – 0.339 signifie que si nous augmentons le niveau de la
variable x de 1, alors le niveau de la variable y diminue de 0.339. Autrement dit,
chaque heure de travail supplémentaire réduit le temps de loisir de 0.339 points.
2.1.2 Équation de régression : ordonnée à l’origine (y-
intercept, ß0)
L’ordonnée à l’origine β0 correspond à la valeur attendue de y
quand x est égal à 0. Pour la connaître, nous appliquons :
correspondent aux moyennes de la
série y et x, et β1 à la pente de régression.
Exemple
Les moyennes de la série y et x étaient égales à = 1.97 et = 7.35. Nous
posons donc :
β = 1.97 – ( – 0.339 0 7.35) = 4.46
2.1.3 Équation de régression théorique et prédiction
des valeurs de y à partir de x
Maintenant que nous connaissons la pente de régression et l’ordonnée
à l’origine, nous pouvons, pour chaque valeur de x donnée, prédire
quelle sera la valeur de y associée. Le symbole ŷ signifie « valeur prédite
de la série y ».
Exemple
Nous posons :
ŷ = β0 + (β1 × x) ŷ = 4.46 + (– 0.339 × x)
L’individuno 1 a pour temps de travail x1 = 9.72. Son temps de loisir observé est
y1 = 1.2. Le temps de loisir prédit (ou estimé) par le modèle est
ŷ1 = β0 + (β1 × x1) = 4.46 + (– 0.339) × 9.72 = 1.1692.
L’individu no 6 a pour temps de travail x6 = 3.67. Son temps de loisir observé est
y6 = 2.18. Le temps de loisir prédit (ou estimé) par le modèle est
ŷ6 = β0 + (β1 × x6) = 4.46 + (– 0.339) × 3.67 = 3.215.
L’ensemble des valeurs prédites de y prédite (ŷ) est ajouté dans notre tableau ci-
après.
2.1.4 Obtenir la somme des carrés totale (SCT)
La SCT reflète la variation totale des observations autour de la
moyenne des données que nous voulons prédire (c’est-à-dire de la série
y). Elle correspond à :
…où correspond à la moyenne de la série y.
Ainsi, pour calculer la somme des carrés totale, nous calculons l’écart
entre chaque observation y et la moyenne de la série (écart que nous
mettons au carré), puis effectuons la somme de ces écarts.
Exemple
Dans notre tableau (voir ci-dessous), nous obtenons : (1.2 – 1.97)2 = 0.59.
(4.75 – 1.97)2 = 7.73, et ainsi de suite.
SCT = 0.59 + 7.74 + … + 1.29 = 12.12
2.1.5 Obtenir la somme des carrés expliquée (SCE)
La SCE reflète la variation expliquée par la régression. Elle mesure la
variation des valeurs prédites ŷ autour de la moyenne . Elle
correspond à :
SCE = (ŷ – )2…où correspond à la moyenne de la série y et ŷ
aux valeurs prédites de la série y.
Ainsi, pour calculer la somme des carrés expliqués, nous calculons
l’écart entre chaque valeur prédite et la moyenne de la série y (écart que
nous mettons au carré), puis effectuons la somme de ces écarts.
Exemple
Nous devons commencer par calculer les valeurs prédites de y en suivant la
démarche détaillée précédemment (voir : équation de régression théorique et
prédiction des valeurs de y à partir de x). Dans notre tableau (voir ci-contre), nous
obtenons ensuite : (1.165 – 1.97)2 = 0.64
(3.714 – 1.97)2 = 3.04, et ainsi de suite.
SCE = 0.64 + 3.05 + … + 1.23 = 9.70
2.1.6 Obtenir la somme des carrés résiduelle (SCR)
La SCR reflète la variation résiduelle non expliquée, c’est-à-dire la
variation totale non expliquée par le modèle de régression. Elle mesure
la distance de la droite de régression aux points du nuage de points. Elle
correspond à :
SCE = (y – ŷ)2…où ŷ aux valeurs prédites de la série y.
Ainsi, pour calculer la somme des carrés résiduelle (ou « somme des
carrés des résidus »), nous calculons l’écart entre chaque observation y
et chaque valeur prédite ŷ (écart que nous mettons au carré), puis nous
effectuons la somme de ces écarts.
Exemple
Nous devons commencer par calculer les valeurs prédites de y en suivant la
démarche détaillée précédemment (voir équation de régression théorique et
prédiction des valeurs de y à partir de x). Dans notre tableau (voir ci-contre), nous
obtenons ensuite :
(1.2 – 1.165)2 = 0.001
(4.75 – 3.714)2 = 1.073, et ainsi de suite.
SCR = 0.001 + 1.073+ … + 0.001 = 2.41
2.1.7 Déduction de la somme des carrés
La somme des carrés totale (SCT) correspond à la somme des carrés
expliquée (SCE) + la somme des carrés résiduelle (SCR ; voir
figure 7.3).
Figure 7.3 – Décomposition des sommes des carrés
en régression linéaire.
Ainsi, nous pouvons déduire que SCE = SCT – SCR ou alors que
SCR = SCT – SCE.
Cela permet de vérifier ses calculs, ou de déduire une somme des
carrés à partir des autres. Notons que si nous effectuons les calculs à la
main à partir de valeurs arrondies, les resultats pourront légèrement
différer, mais s’ils sont réalisés à partir d’un tableur (à partir de valeurs
non arrondies), les resultats seront alors identiques.
Exemple
SCR = 2.41
SCE = 9.70
SCT = 12.12
Nous constatons effectivement que :
2.41 + 9.70 12.12
12.12 – 9.70 2.41
12.12 – 2.41 9.70
2.1.8 Coefficient de détermination R 2
Afin d’avoir une idée générale de la qualité de l’ajustement linéaire,
nous calculons R2. Ce coefficient mesure la part de variation totale de y
expliquée par le modèle de régression :
Exemple
Ainsi, en multipliant le résultat par 100 pour le transformer en pourcentage (%), nous
pouvons conclure que le modèle de régression explique 80 % de la variation totale.
Autrement dit, le pourcentage de variation des scores de temps de loisir expliquée
par le temps de travail est de 80 %.
Note. L’ajustement de la droite de régression aux données dépend du niveau de
corrélation que les deux séries de données entretiennent : plus la corrélation est faible
entre les deux séries, plus la droite aura tendance à être éloignée de certaines
observations (et plus les résidus augmentent). De ce fait, un modèle de régression qui
nous permettra d’établir de bonnes prédictions est un modèle qui comportera de faibles
résidus.
Si le coefficient de corrélation est proche de 0 : il existe une très faible relation entre x
et y. L’approximation du nuage de points par la droite de régression sera donc
mauvaise. La somme des carrés expliquée sera faible et la somme des carrés
résiduelle sera élevée. Le recours à la régression est peu pertinent dans le cas présent.
Exercices
Quiz pour démarrer
Exercez-vous en ligne.
http://dunod.link/stapsyneu22
Exercice 7.2.1
Complétez le schéma suivant :
A = ………………………………
B = ………………………………
C = ………………………………
D = ………………………………
E = ……………………………….
Exercice 7.2.2
Un psychologue étudie l’association entre la mémoire verbale et la
mémoire visuo-spatiale. Pour cela, il administre une épreuve pour
mesurer les capacités mnésiques verbales et visuo-spatiales à un
échantillon de 10 adolescents de 16 ans. Le coefficient de corrélation r
est égal à 0.73. Les écarts-types et les moyennes sont résumés dans le
tableau ci-dessous. Le psychologue calcule également la somme des
carrés totale (SCT) et la somme des carrés résiduelle (SCR).
1. Déterminez la droite de régression théorique, fournissant une
prédiction du niveau de mémoire visuo-spatiale (y) en fonction
du niveau de mémoire verbale (x).
2. Appréciez et interprétez la qualité de cet ajustement linéaire.
3. Quelle serait l’estimation du score de mémoire visuo-spatiale
d’un adolescent qui aurait un score de mémoire verbale de 7 ?
Exercice 7.2.3
Une équipe de chercheurs s’intéresse aux troubles cognitifs dans la
dépression, notamment au phénomène de ralentissement de la vitesse de
traitement de l’information. Ils administrent le Symbol Digit Modalities
Test (SDMT), mesurant les performances en vitesse de traitement de
l’information, ainsi qu’un questionnaire d’évaluation du niveau de
dépression à un échantillon de 6 adultes. Les conditions d’applications
des tests paramétriques sont remplies. Les résultats sont les suivants :
1. Dans cette situation, quelle est la variable à expliquer ? Quelle
est la variable explicative ?
2. Calculez le coefficient de corrélation de Bravais-Pearson.
Vérifiez si le test est significatif au seuil de 5 % (hypothèse
unilatérale). Que concluez-vous ?
3. Calculez les coefficients de la droite des moindres carrés.
4. Pour chaque valeur de x obtenue, calculez la valeur de y
prédite par le modèle.
5. Tracez le nuage de points et l’équation de la droite obtenue
(avec les coefficients estimés).
6. Calculez la somme des carrés totale (SCT), la somme des
carrés résiduelle (SCR) et la somme des carrés expliquée.
Appréciez et interprétez la qualité de cet ajustement linéaire au
moyen du coefficient de détermination (R2).
7. Quelle serait l’estimation du score de vitesse de traitement
d’un individu qui aurait un score de dépression de 27 ?
Exercice 7.2.4
Un enseignant souhaite comparer deux méthodes d’enseignement : en
présentiel et en distanciel. Il relève la note obtenue dans deux
enseignements suivis en présentiel et en distanciel auprès d’un
échantillon de 5 étudiants. Les conditions d’applications des tests
paramétriques sont remplies. Les résultats sont les suivants :
1. Dans cette situation, quelle est la variable à expliquer ? Quelle
est la variable explicative ?
2. Calculez le coefficient de corrélation de Bravais-Pearson.
Vérifiez si le test est significatif au seuil de 5 % (hypothèse
bilatérale). Que concluez-vous ?
3. Déterminez la droite de régression permettant de prédire la
note obtenue en distanciel à partir de la note obtenue par
l’étudiant en présentiel, sachant que la variance = 14.80 et la
variance s2y = 11.2. Commentez la pertinence de son
utilisation.
4. Quelle serait la note en distanciel d’un étudiant ayant eu 10 en
présentiel ?
5. Pour chaque valeur de x obtenue, calculez la valeur de y
prédite par le modèle.
6. Tracez le nuage de points et l’équation de la droite obtenue
(avec les coefficients estimés).
7. Calculez la somme des carrés totale (SCT), la somme des
carrés résiduelle (SCR) et la somme des carrés expliquée.
Appréciez et interprétez la qualité de cet ajustement linéaire au
moyen du coefficient de détermination (R2).
3. ρ ou rs de Spearman
3.1 Rappel de cours
Le test de corrélation de Spearman constitue une alternative non
paramétrique au test de de Bravais-Pearson. Lorsque le test est effectué
sur une population, le symbole devient ρ et se prononce « rho ». Lorsque
le test est effectué sur un échantillon, le symbole devient rs. Nous
détaillons ici la démarche pour un échantillon.
3.1.1 Étape 1 : poser les hypothèses statistiques
Question de recherche : nous demandons à des couples d’évaluer
8 films sur une échelle allant de 0 (j’ai détesté) à 10 (j’ai adoré). Y a-
t-il un lien entre les préférences effectués par les deux partenaires
dans un couple ?
• H0 = Les deux jugements ne sont pas dépendants l’un de
l’autre. Les variables n’entretiennent aucune relation entre
elles (rs = 0).
Le résultat du test mettra à l’épreuve cette hypothèse et nous précisera
quelle est la probabilité d’avoir observé les données que nous avons
obtenues si H0 est vraie (quelle est la probabilité d’observer les
différences que nous observons si en réalité il n’y a pas de différence
entre les populations). Si cette probabilité n’est pas jugée suffisamment
rare, nous ne pourrons pas rejeter H0 à l’issue du test. Nous conclurons
que les données ne sont pas incompatibles avec cette hypothèse
d’absence de différence statistique. Si cette probabilité est suffisamment
rare, nous rejetterons cette hypothèse H0 pour retenir :
• H1 = Il existe une liaison linéaire significative entre les deux
variables (hypothèse bilatérale).
Note. Puisque nous ne précisions pas le sens de la liaison attendue (positive ou
négative), l’hypothèse est non orientée, donc bilatérale. Si nous avions précisé : « Il
existe une liaison linéaire positive (ou négative) significative entre les deux variables »
(nous nous attendons à ce que les variables évoluent dans le même sens ou en sens
inverse), l’hypothèse serait alors orientée, donc unilatérale.
3.1.2 Étape 2 : calcul de la valeur de décision (rs)
Nous commençons par substituer aux valeurs brutes leur numéro
d’ordre pour chaque série : cette valeur est la plus petite, elle arrive en
première position (rang 1), cette valeur est la deuxième plus petite, elle
arrive en deuxième position (rang 2), etc. Pour l’ensemble des valeurs
d’une série, il faut attribuer les rangs (les positions) que prennent les
valeurs. Pour les ex aequo, considérer le rang moyen en attribuant alors
la moyenne des « places » que prennent les valeurs concernées.
Exemple
Commençons par la série « Préférence partenaire 1 » : la valeur 3 est la plus petite,
elle arrive en 1ère position : nous lui attribuerons le rang « 1 ». Ensuite, le score 4
apparaît deux fois. Il devrait correspondre aux rangs 2 et 3. Ces deux scores arrivent
en effet respectivement en 2e et 3e positions. Nous leur attribuons alors la moyenne
de ces deux rangs : (2 + 3) ÷ 2 = 2.5. Attention, pour la valeur suivante, nous
devrons repartir du rang 4, car nous venons d’attribuer les rangs 2 et 3.
Ainsi de suite pour l’ensemble des valeurs. Nous répétons la démarche avec la série
« Préférence partenaire 1 ».
Il faut ensuite calculer la différence des rangs établis puis mettre au
carré le résultat avant de faire la somme (I) de ces quantités.
Exemple
Nous noterons le résultat dans la colonne « d 2 ». Ainsi, (5 – 7)2 = 4, (1 – 3)2 = 4 et
ainsi de suite.
d 2 = 4 + 4 + 0.25 + 16 + 9 + 4 + 2.25 + 9 = 48.5
Nous pouvons maintenant calculer la valeur de décision dont la
formule est détaillée dans le formulaire.
Exemple
Ce coefficient s’interprète de la même façon que le coefficient de
Bravais-Pearson : sa valeur est toujours comprise entre –1 et +1. Son
signe indique le sens (positif ou négatif) de la corrélation tandis que sa
valeur indique l’intensité de la corrélation (voir figure 7.4).
Figure 7.4 – Interpréter un coefficient de corrélation
de Spearman.
Exemple
Dans notre exemple, le résultat est positif, ce qui signifie que la corrélation est
positive. Ainsi, les deux variables évoluent dans le même sens : plus le premier
partenaire apprécie un film, plus le deuxième l’apprécie aussi. Nous pourrions tout
aussi bien conclure que moins le premier partenaire apprécie un film, moins le
deuxième l’apprécie aussi. Toutefois, avant d’affirmer une telle conclusion, nous
devons d’abord savoir si le test est significatif ou non.
3.1.3 Étape 3 : lecture de la valeur critique à l’aide
de la table de Spearman
Nous allons maintenant comparer cette valeur (rs calculé) au seuil que
nous allons lire dans la table de Spearman (rs critique). Pour obtenir la
valeur du rs critique, il faut déterminer le nombre de degrés de libertés
(ou ddl), correspondant au nombre de paires données – 2 (soit le
nombre de sujets inclus ayant chacun 2 mesures – 2, correspondant ici
au nombre de variables, qui sera toujours égal à deux pour une analyse
de corrélation). Il suffit ensuite de se positionner sur la ligne
correspondante pour aller lire la valeur critique en fonction de
l’hypothèse posée et du seuil de risque (α) choisi.
Exemple
Nous souhaitions vérifier l’hypothèse selon laquelle il existe une liaison linéaire
significative entre les deux variables, autrement dit une hypothèse non orientée,
donc bilatérale.
ddl = 8 – 2 = 6 (car nous avons bien 8 paires de données – 2 = 6). Nous allons donc
nous positionner sur la sixième ligne. La valeur du rs critique correspondant au
seuil α = 5 % pour un test bilatéral est de 0.886.
3.1.4 Étape 4 : prise de décision
H0 sera rejetée si |rs calculé| > rs critique. Ainsi, lorsque le rs calculé
considéré en valeur absolue (c’est-à-dire en faisant abstraction de son
signe) est (strictement) supérieur à la valeur de rs critique trouvée dans la
table, le résultat du test est significatif.
Exemple
|rs calculé|(0.42) < rs critique (0.886). H0 ne peut donc pas être rejetée au seuil α = 5 %.
Le résultat du test de Spearman est non significatif, rs = .42 ; NS. Nous ne pouvons
pas affirmer qu’il existe une liaison linéaire entre les jugements effectués.
Attention, cela ne veut pas dire que nous venons de prouver qu’il n’existait aucune
association (linéaire) entre les jugements effectués. Nous n’avons simplement pas
suffisamment de preuves pour conclure qu’il en a une.
Exercices
Quiz pour démarrer
Exercez-vous en ligne.
http://dunod.link/stapsyneu23
Exercice 7.3.1
Nous menons une étude sur l’éco-anxiété (c’est-à-dire le niveau
d’inquiétude ressenti face aux catastrophes écologiques annoncées) au
sein de la famille. Nous administrons un questionnaire d’éco-anxiété
pour recueillir les attitudes des enfants et leurs parents. Déterminez, à
l’aide du test de corrélation de Spearman (les données étant ordinales),
s’il y a un lien entre les jugements effectués (au seuil α = 5 %).
Exercice 7.3.2
Une psychologue étudie l’association entre le stress auto-déclaré et la
tension artérielle systolique (TAS). Pour cela, elle administre un
questionnaire pour évaluer le stress à un échantillon de 12 adultes et
mesure leur TAS. Les conditions d’applications des tests paramétriques
ne sont pas remplies. La psychologue souhaite vérifier s’il existe une
liaison positive entre les deux variables. Les résultats obtenus par ce
protocole bivarié sont présentés dans le tableau suivant :
1. Représentez graphiquement le nuage de points. Quelle relation
semble-t-il exister entre x et y ?
2. Calculez le coefficient de corrélation linéaire de Spearman
entre le stress auto-déclaré et la tension artérielle systolique.
Vérifiez si le test est significatif au seuil de 5 %. Interprétez le
résultat.
Exercice 7.3.3
Soient deux variables ordinales x et y issues de deux échantillons,
dont les valeurs figurent dans le tableau ci- dessous.
1. Représentez graphiquement le nuage de points. Quelle relation
existe-t-il entre x et y ?
2. Calculez le coefficient de corrélation linéaire de Spearman et
déterminez s’il existe un lien entre x et y (au seuil α = 1 %).
Interprétez le résultat.
3. Concluez sur l’importance de l’effet.
4. 2 d’indépendance et indices Phi ( )
ou V de Cramer
4.1 Rappel de cours
Le 2 d’indépendance consiste à consiste à tester la liaison entre deux
variables qualitatives (ou catégorielles) indépendantes. À partir du 2, les
indices Phi ( ) ou V de Cramer nous renseignent sur la force
d’association de ces variables.
4.1.1 Étape 1 : poser les hypothèses statistiques
• H0 = Le fait de developper un cancer n’est pas dépendant du
statut de fumeur. Les variables n’entretiennent aucune
relation entre elles.
Le résultat du test mettra à l’épreuve cette hypothèse et nous précisera
quelle est la probabilité d’avoir observé les données que nous avons
obtenues si H0 est vraie (quelle est la probabilité d’observer les
différences que nous observons entre les séries si en réalité il n’y a pas
de différence entre les populations). Si cette probabilité n’est pas jugée
suffisamment rare, nous ne pourrons pas rejeter H0 à l’issue du test.
Nous conclurons que les données ne sont pas incompatibles avec cette
hypothèse d’absence de différence statistique. Si cette probabilité est
suffisamment rare, nous rejetterons cette hypothèse H0 pour retenir :
• H1 = Le fait de développer un cancer ou non est dépendant
du statut de fumeur. Il existe une liaison significative entre
les deux variables.
4.1.2 Étape 2 : calcul de la valeur de décision
Étape 2.1 : calculer les effectifs théoriques à l’aide de la formule
suivante :
2
Étape 2.2 : appliquer la formule du
Exemple
Figure 7.5 – Effectifs observés et théoriques.
4.1.3 Étape 3 : lecture de la valeur critique à l’aide
de la table du 2
Pour obtenir la valeur du 2 critique, il faut déterminer le nombre de
degrés de libertés (ou ddl), correspondant au [(nombre de modalités de
la 1ère variable – 1) × (nombre de modalités de la 2e variable – 1)]. Il
suffit ensuite de se positionner sur la ligne correspondante pour aller lire
la valeur du 2 critique à un seuil de risque (α) choisi.
Exemple
Puisque nous avons deux modalités pour chaque variable, nous obtenons donc un
ddl égal à [(2 – 1) × (2 – 1)] = 1 × 1 = 1.
Nous allons donc nous positionner sur la 1ère ligne pour aller lire le 2 critique. Si
nous choisissons un seuil de risque α de 5 %, la valeur du 2 critique correspondant
au seuil de 5 % sera de 3.84.
4.1.4 Étape 4 : prise de décision
Si la valeur du 2 calculée est inferieure ou égale au 2 critique au
seuil de risque (α) choisi, les résultats sont non significatifs.
Exemple
Le 2 calculé (13.92) est supérieur au 2 critique (3.84). L’hypothèse nulle (H0) peut
être rejetée. Nous pouvons affirmer qu’il existe un lien entre le cancer des poumons
et le statut de fumeur, 2(1) = 13.92 ; p < .05.
Lorsque le résultat du test est significatif, nous concluons que la VI a
un effet sur la VD, mais nous ne connaissons pas l’intensité de cet effet.
Lorsqu’un résultat est significatif à α < .001, la différence n’est pas plus
importante que lorsqu’un résultat est significatif à α < .05. La seule
chose qui change entre les deux est le risque que nous prenons quand
nous affirmons qu’il y a une différence. Pour le test du 2
d’indépendance, deux indices de taille d’effet (le Phi et le V de Cramer,
voir formulaire), nous indiqueront la force de la relation entre les deux
variables manipulées et nous permettront d’estimer l’intensité de l’effet.
L’indice Phi peut être calculé seulement lorsque nous avons deux
variables qualitatives à deux modalités chacune (tableau de départ à
4 cases). Avec un nombre de modalités plus élevé pour une (ou les
deux) variable(s), nous aurons recours à un autre indice : le V de
Cramer.
Exemple
Ici nous avons 2 variables à 2 modalités chacune, nous optons donc pour l’indice
Phi :
En se référant à la grille d’interprétation (voir formulaire), nous pouvons conclure que
l’effet est modéré car dddddddd est compris entre 0.30 et 0.50.
Exercices
Quiz pour démarrer
Exercez-vous en ligne.
http://dunod.link/stapsyneu24
Exercice 7.4.1
Une chercheuse cherche à mesurer le niveau d’association entre
l’exposition aux écrans (télévision, téléphone, tablette) et le retard dans
l’acquisition du langage chez l’enfant. Elle obtient la répartition
observée ci-dessous sur les variables « exposition aux écrans »
catégorisée en quatre catégories (exposition très importante, importante,
modérée et faible) et « retard dans les acquisitions » catégorisée en deux
catégories (non, oui).
La chercheuse a étudié la liaison entre les deux variables en calculant
la valeur du Chi-deux. Elle trouve c2 = 11.6.
1. Évaluez, au seuil α < .05, l’indépendance entre les deux
variables.
2. Évaluez, au seuil α < .01, l’indépendance entre les deux
variables.
3. Estimez la force de l’association (la taille de l’effet) en
calculant l’indice Phi ( ) ou V de Cramer.
. Concluez sur l’effet observé.
Exercice 7.4.2
Un psychologue souhaite savoir s’il existe un lien entre les capacités
de flexibilité cognitive (la capacité de changer de raisonnement ou de
comportement, à passer d’une opération cognitive à une autre pour
s’adapter aux circonstances, aux contraintes) et d’empathie (la capacité à
comprendre et à ressentir les expériences affectives d’autrui). Pour cela,
le psychologue administre une épreuve de flexibilité et une épreuve
d’empathie à un échantillon de participants. Les participants sont
catégorisés « déficitaires » ou « non déficitaires » à l’issue des deux
épreuves.
Le psychologue comptabilise :
• 17 participants déficitaires en empathie contre 11 participants
non déficitaires en empathie, parmi les individus déficitaires
en flexibilité ;
• 15 participants déficitaires en empathie contre 24 participants
non déficitaires en empathie, parmi les individus non
déficitaires en flexibilité.
Le psychologue cherche à quantifier le degré de liaison, d’association
entre les mesures de flexibilité et d’empathie. Évaluez, au seuil α < .05,
l’indépendance entre les deux variables. Si le résultat est significatif,
estimez la taille de l’effet.
Exercice 7.4.3
Un psychologue souhaite savoir s’il existe un lien entre les capacités
de flexibilité cognitive (la capacité de changer de raisonnement ou de
comportement, à passer d’une opération cognitive à une autre pour
s’adapter aux circonstances, aux contraintes) et d’empathie (la capacité à
comprendre et à ressentir les expériences affectives d’autrui). Pour cela,
le psychologue administre une épreuve de flexibilité et une épreuve
d’empathie à un échantillon de 170 participants. Les participants sont
catégorisés « très haut niveau », « niveau moyen », « faible niveau » à
l’issue des deux épreuves. Il obtient les résultats suivants :
Le psychologue cherche à quantifier le degré de liaison, d’association
entre les mesures de flexibilité et d’empathie. Évaluez, au seuil α < .05,
l’indépendance entre les deux variables. Si le résultat est significatif,
estimez la taille de l’effet.