Chapitre 4 : LA CORRELATION PEARSON
INTRODUCTION
Relation et dépendance
Soit deux caractères quantitatifs X et Y, décrivant le même ensemble d'unités. On
dit qu'il existe une relation entre X et Y si l'attribution des modalités de X et de Y
ne se fait pas au hasard, c'est à dire si les valeurs de X dépendent des valeurs de Y
ou si les valeurs de Y dépendent des valeurs de X. Dire que Y dépend de
X signifie que la connaissance des valeurs de X permet de prédire, dans une
certaine mesure, les valeurs de Y. En d'autres termes, si Y dépend de X, on peut
trouver une fonction f telle que :
Y=f(X)
Exemple : il existe une relation entre la température et l'altitude. La dépendance
entre la température et l'altitude est exprimée par la relation :
Tz = -0.6*Z + T0
avec
Tz : température à l'altitude z
Z : altitude en centaines de mètres
T0 : température au niveau de la mer.
La notion de dépendance n'est pas symétrique :
Lorsque l'on écrit Y=f(X), on postule que Y est la variable dépendante (à
expliquer) et que X est la variable indépendante (explicative). Celà signifie que
les valeurs de X permettent de prédire les valeurs de X, mais il n'est pas certain que
la réciproque soit vraie.
Exemple : La théorie de l'optimum de taille des villes
D'après cette théorie, il existe une taille optimale des villes qui minimise les coûts
d'équipement : les villes trop petites ne permettent pas de réaliser d'économies
d'échelles, les villes trop grandes entraînent des surcôuts liés à la congestion des
réseau et à la durée des déplacements quotidiens.
=> Si cette théorie est vraie, on peut montrer que les côuts dépendent de la taille
(la connaissance de X permet de prédire la valeur de Y).
=> en revanche, la taille ne dépend pas des coûts ( des coûts élevés peuvent
correspondre soit à des grandes villes soit à des petites villes : la connaissance des
coûts ne permet pas de prévoir la taille).
LES TYPES DE RELATIONS ENTRE DEUX
CARACTERES QUANTITATIFS
En amont de toute mesure de corrélation à l'aide de coefficients appropriés, il est
nécessaire de définir la forme d'une éventuelle relation entre deux caractères à
l'aide d'une représentation graphique appropriée. En effet, selon la forme de la
relation observée, on ne fera pas les mêmes hypothèses et on n'utilisera pas les
mêmes outils de mesure.
Le diagramme de corrélation
Pour savoir s'il existe une relation entre deux caractères, on établit un diagramme
de corrélation, c'est à dire un diagramme croisant les modalités de X et de Y.
Chaque élément i est représenté par le point de coordonnées (Xi,Yi). L'ensemble des
points forme un nuage de points dont la forme permet de caractériser la relation à
l'aide de trois critères :
- intensité de la relation
- forme de la relation
- sens de la relation
L'intensité de la relation
Une relation est forte si les unités ayant des valeurs voisines sur X ont également
des valeurs voisines sur Y, c'est à dire si l'on a la relation suivante
Xi proche de Xj => Yi proche de Yj
=> le nuage de point prend alors la forme d'une ligne ou d'une courbe dont les
points s'écartent peu.
Une relation est faible si les unités ayant des valeurs voisines sur X peuvent avoir
des valeurs éloignées sur Y, c'est à dire si deux valeurs proches de X peuvent
correspondre à deux valeurs très différentes de Y
=> le nuage de point n'a pas la forme d'une ligne ou d'une courbe, ou seulement de
façon très grossière.
Une relation est nulle si les valeurs de X ne permettent aucunement de prédire les
valeurs de Y
=> le nuage de point a le forme d'un carré, d'un cercle, d'une "patate" sans
véritables lignes directrices.
absence de relation relation faible relation forte
La forme de la relation
Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme
Y=aX+b, c'est à dire si le nuage de point peut s'ajuster correctement à une droite.
Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme
Y=aX+b, mais de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage de
point présente alors une forme complexe avec des courbures.
Une relation non-linéaire est monotone si elle est strictement croissante ou
strictement décroissante, c'est-à-dire si elle ne comporte pas de minima ou de
maxima. Toutes les relations linéaires sont monotones.
relation non-linéaire et relation non-linéaire et relation linéaire
non-monotone monotone (toujours monotone)
Le sens de la relation
Une relation monotone (linéaire ou non) est positive si les deux caractères
varient dans le même sens, c'est à dire si l'on observe en général que :
Xi > Xj => Yi > Yj
- les valeurs fortes de X correspondent généralement aux valeurs fortes de Y
- les valeurs moyennes de X correspondent généralement aux valeurs moyennes de
Y
- les valeurs faibles de X correspondent généralement aux valeurs faibles de Y
Une relation monotone est négative si les deux caractères varient en sens inverse,
c'est à dire si l'on observe en général que
Xi > Xj => Yi < Yj
- les valeurs fortes de X correspondent généralement aux valeurs faibles de Y
- les valeurs moyennes de X correspondent généralement aux valeurs moyennes de
Y
- les valeurs faibles de X correspondent généralement aux valeurs fortes de Y
relation linéaire relation linéaire
positive négative
relation non-linéaire relation non-linéaire
positive négative
LE CALCUL DES COEFFICIENTS DE
CORRELATION
Les coefficients de corrélation permettent de donner une mesure synthétique de
l'intensité de la relation entre deux caractères et de son sens lorsque cette relation
est monotone. Le coefficient de corrélation de Pearson permet d'analyser les
relations linéaires et le coefficient de corrélation de Spearman les relations non-
linéaires monotones. Il existe d'autres coefficients pour les relations non-linéaires et
non-monotones, mais ils ne seront pas étudiés dans le cadre de ce cours.
Pour illustrer l'usage de ces coefficients, on partira de l'exemple (fictif) d'une étude
de psychosociobiologie visant à examiner s'il existe une relation entre la taille des
pieds des enfants et leur intelligence. Partant d'un échantillon de 10 enfants (notés
A, B, ...J) on examinera s'il existe une corrélation, linéaire ou non, entre la pointure
de leurs chaussures (X) et leur quotient intellectuel (Y). Les données de l'analyse
sont rassemblées dans le tableau 1, ci-dessous
Tableau 1 : Pointure des chaussures (X) et quotient intellectuel (Y) de 10
enfants d'âge scolaire
(données fictives)
enfant X Y
A 31 50
B 31 55
C 32 52
D 33 56
E 33 63
F 34 65
G 35 69
H 36 90
I 37 110
J 38 150
moyenne 34 76
écart-type 2.4 32
On se propose d'examiner s'il existe une relation entre la capacité à épeler et la
taille des pieds : il y a quatre réponses possibles :
- plus la taille des pieds est importante, plus la capacité à épeler est importante
(RELATION POSITIVE)
- plus la taille des pieds est importante, moins la capacité à épeler est important
(RELATION NEGATIVE)
- la taille des pieds est liée au quotient intellectuel par une relation complexe
comportant au moins un maximum et un minimum (RELATION NON
MONOTONE)
- la taille des pieds n'est pas liée à la capacité à épeler (RELATION NULLE)
Le coefficient de corrélation linéaire de Bravais-Pearson
Ce coefficient permet de détecter la présence ou l'absence d'une relation
linéaire entre deux caractères quantitatifs continus. Pour calculer ce coefficient il
faut tout d'abord calculer la covariance. La covariance est la moyenne du produit
des écarts à la moyenne.
Le coefficient de corrélation linéaire de deux caractères X et Y est égal à la
covariance de X et Y divisée par le produit des écarts-types de X et Y
Remarque : lorsque deux caractères sont standardisés, leur coefficient de
corrélation est égal à leur covariance puisque leurs écarts-types sont égaux à 1.
Propriétés et interprétation de r(XY)
On peut démontrer que ce coefficient varie entre -1 et +1. Son interprétation est la
suivante :
- si r est proche de 0, il n'y a pas de relation linéaire entre X et Y
- si r est proche de -1, il existe une forte relation linéaire négative entre X et Y
- si r est proche de 1, il existe une forte relation linéaire positive entre X et Y
Le signe de r indique donc le sens de la relation tandis que lala valeur absolue
de r indique l'intensité de la relation c'est-à-dire la capacité à prédire les valeurs de
Y en fonctions de celles de X.
Exemple : Calcul de la corrélation linéaire entre taille des pieds et intelligence de
10 enfants d'âge scolaire (Cf. tableau 1).
Tableau 2 : Exemple de calcul du coefficient de corrélation de Bravais-Pearson
enfant (i) Xi Yi (Xi -mX) (Yi -mY) (Xi-mX)(Yi-
mY)
A 31 50 -3 -26 78
B 31 55 -3 -21 63
C 32 52 -2 -24 48
D 33 56 -1 -20 20
E 33 63 -1 -13 13
F 34 65 0 -11 0
G 35 69 1 -7 -7
H 36 90 2 14 28
I 37 110 3 34 102
J 38 150 4 74 296
moyenne 34 76 0 0 64.1
écart-type 2.4 32
La covariance de X et Y étant égal à 64.1, on obtient le coefficient de corrélation
de X et de Y en divisant la covariance par le produit de l'écart-type de X et de
l'écart-type de Y :
r(X,Y) = 64.1 / (2.4 * 32) = +0.83
Nous sommes en présence d'une corrélation positive forte, qui semble indiquer qu'il
existe une relation linéaire (de type Y=aX+b) reliant le quotient intellectuel des
enfants et la taille de leurs pieds. Toutefois, le coefficient de corrélation ne nous
indique pas (1) si la relation observée est significative (fruit du hasard ou non) et
(2) si elle correspond à une relation de cause à effet entre les deux facteurs X et Y
étudiés. De plus, l'importance de la corrélation linéaire ne préjuge pas de
l'existence d'un meilleur ajustement, qui serait quant à lui de type non-linéaire.
Limites du coefficient de Pearson
En principe, le coefficient de Pearson n'est applicable que pour mesurer la relation
entre deux variables X et Y ayant une distribution de type gaussien et ne
comportant pas de valeur exceptionnelles. Si ces conditions ne sont pas vérifiées
(cas fréquent ...) l'emploi de ce coefficient peut aboutir à des conclusions erronées
sur la présence ou l'absence d'une relation.
On notera également que l'absence d'une relation linéaire ne signifie pas l'absence
de toute relation entre les deux caractères étudiés.
Le coefficient de corrélation de rang de Spearman.
Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s'il
existe une relation entre le rang des observations pour deux caractères X et Y, ce
qui permet de détecter l'existence de relations monotones (croissante ou
décroissante), quelle que soit leur forme précise (linéaire, exponentiel,
puissance, ...). Ce coefficient est donc très utile lorsque l'analyse du nuage de point
révèle une forme curviligne dans une relation qui semble mal s'ajuster à une droite.
On notera également qu'il est préférable au coefficient de Pearson lorsque les
distributions X et Y sont dissymétriques et/ou comportent des valeurs
exceptionnelles.
Le coefficient de Spearman est fondé sur l'étude de la différence des rangs entre les
attributs des individus pour les deux caractères X et Y :
Ce coefficient varie entre -1 et +1. Son interprétation est la même que celui de
Pearson, mais il permet de mettre en évidence des relations non-linéaires
lorsqu'elles sont positives ou négatives.
Exemple : Calcul de la corrélation de rang entre taille des pieds et intelligence de
10 enfants d'âge scolaire (Cf. tableau 1).
Tableau 3 : Exemple de calcul du coefficient de corrélation de Bravais-Pearson
enfant X Y X' Y' (X'-Y') (X'-Y')2
A 31 50 1.5 1 0.5 0.25
B 31 55 1.5 3 -1.5 2.25
C 32 52 3 2 1 1
D 33 56 4.5 4 0.5 0.25
E 33 63 4.5 5 -0.5 0.25
F 34 65 6 6 0 0
G 35 69 7 7 0 0
H 36 90 8 8 0 0
I 37 110 9 9 0 0
J 38 150 10 10 0 0
somme 340 760 55 55 0 4
La somme du carré des différences de rang étant égale à +4, et le nombre
d'individus étudiés étant égal à 10, on en déduit la valeur du coefficient de
corrélation de Spearman :
R =1- [(6*4)/(1000-10)] =+ 0.98
Le fait que la valeur du coefficient de Spearman soit positive confirme les résultats
précédents (plus les enfants ont des grands pieds, plus leur quotient intellectuel est
important). Mais le fait que la corrélation soit beaucoup plus forte en valeur
absolue suggère l'existence d'une relation non-linéaire entre les deux variables.
Cette hypothèse est confirmée par le diagramme de corrélation
SIGNIFICATIVITE D'UNE RELATION
Le calcul d'un coefficient de corrélation ne constitue qu'une première étape dans
l'analyse de la relation entre deux caractères. Il s'agit tout au plus d'une étape
exploratoire qui doit être validée par un test de la significativité de la relation et
par une vérification de la validité de la relation (absence de biais).
Test de la significativité d'une relation
Les coefficient de corrélation de Pearson ou de Spearman ne renseignent pas sur le
degré de significativité d'une relation car celle-ci dépend également du nombre
d'observation.
Exemple : on veut étudier le lien entre cancer et tabagisme.
- Un r de + 0.6 établi sur un échantillon de 10 personnes n'est pas significatif au
seuil de 5% (il peut s'agir d'un hasard).
- Un r de + 0.2 établi sur un échantillon de 200 personnes est significatif au seuil
de 5% (la taille de l'échantillon fait que la relation, bien que faible a peu de
chances d'être due au hasard).
Pour déterminer si une relation est significative, il faut procéder à un test
d'hypothèse en procédant de la façon suivante :
(1) H0 : il n'y a pas de relation entre les deux caractères X et Y
(2) On se fixe un risque d'erreur pour le rejet de H0 (exemple alpha=5%)
(3) On calcule la valeur absolue du coefficient de corrélation r(X,Y) dans la table
correspondante (Pearson ou Spearman)
(4) On calcule la valeur théorique r(alpha, N.) de ce coefficient qui n'est dépassé
que dans alpha % des cas
(5) On teste H0 vraie si r(alpha, d.d.l.) > abs[ r(X,Y) ]
(6) On accepte ou rejette H0
Exemple : Pour 10 observations, les valeurs critiques du coefficient de Spearman
sont 0.564 au seuil de 5% et 0.746 au seuil de 1%. La valeur observée étant de
+0.98, on peut rejeter H0 et affirmer avec moins de 1% de chances de se tromper
que la relation observée entre la taille des pieds et le quotient intellectuel des
enfants n'est pas le fruit du hasard.
Vérification de l'absence de biais
Le fait que le test de significativité permette de rejeter l'hypothèse d'indépendance
ne doit pas amener à conclure trop vite à l'existence d'une relation. Celle-ci peut
souvent être la conséquence de biais liés à un mauvais respect des conditions
d'utilisation des coefficients de corrélation. Quelques exemples fréquents de
corrélation biaisée sont indiquées ci-dessous.
Conclusion erronée sur l'absence de relation
Dans l'exemple présenté ci-dessus les deux coefficients de corrélation (Pearson,
Spearman) sont nuls, mais pourtant il existe bel et bien une relation (non-linéaire et
non-monotone) entre les deux variables X et Y. Un simple examen des coefficients
sans avoir tracé le nuage de points ferait manquer un résultat essentiel.
Influence d'une valeur exceptionnelle
Dans l'exemple présenté ci-dessus, le calcul du coefficient de corrélation de
Pearson aboutirait à l'idée qu'il existe une corrélation positive (+0.54) mais non
significative (au seuil de 5%) entre les deux variables. Or, cette corrélation positive
résulte uniquement de l'influence du point exceptionnel (9,9). Si l'on retire ce
dernier, on obtient une corrélation négative (-0.67) et significative (au seuil de 5%)
entre les deux variables, soit une conclusion doublement inverse de la précédente !
Emboîtement de relations et composante d'échelle
Dans l'exemple ci-dessus il n'est pas faux de conclure à l'existence d'une relation
positive significative (+0.75) mais celle-ci est le résultat des différences de
comportement de trois sous-population à l'intérieur desquelles la relation est au
contraire rigoureusement négative. Il existe donc une composante d'échelle dans la
relation observée et les conclusions seront très variable selon l'échantillon
considéré.
Une astuce utile : la comparaison des coefficients de Pearson et Spearman
La plupart des biais peuvent être assez facilement détectés à travers l'analyse du
nuage de point. Malheureusement cette méthode n'est pas applicable lorsque l'on
veut calculer les corrélations entre de nombreuses variables prises 2 à 2.
Dans ce cas, un truc utile consiste à calculer systématiquement les deux coefficients
de corrélation (Pearson et Spearman) et à vérifier s'ils donnent des résultats
conformes. Si ce n'est pas le cas, c'est probablement qu'il y a anguille sous-roche ...
signif(Pearson) > signif(Spearman) : ceci indique fréquemment la présence de
valeurs exceptionnelles qui augmentent la valeur du coefficient de Pearson mais ne
modifient pas celle du coefficient de Spearman, beaucoup plus robuste.
signif(Spearman) > signif(Pearson) : ceci indique fréquemment l'existence d'une
relation non-linéaire, mieux prise en compte par le coefficient de Spearman que par
celui de Pearson.
Evidemment, il y a toujours des cas vicieux où les deux coefficients donnent le
même résultat et où pourtant la relation est biaisée...
CORRELATION ET CAUSALITE
UNE CORRELATION N'IMPLIQUE PAS NECESSAIREMENT UNE
CAUSALITE !!!!
Quelques familles d'explications d'une corrélation
Exemple : Analphabétisme des femmes (TAN) et mortalité des garçons avant 5 ans
en Afrique (TMO).
* Causalité directe :
TAN => TMO : Les femmes qui ne savent pas lire ne peuvent pas soigner les
enfants car elles n'ont pas lu Freud, Brazelton et Laurence Pernoud.
TMO => TAN : La mortalité des jeunes enfants désespère les femmes qui
renoncent à lire Freud, Brazelton et Laurence Pernoud.
* Chaînes causales linéaires :
En réalité, les deux exemples ci-dessus correspondent moins à des causalité directe
qu'à des chaînes causales :
TAN => lecture impossible => Pas d'information sur Freud => Enfant mal soigné
=> TMO
* Chaînes causales arborescente :
L'un des caractères peut n'être qu'un facteur parmi d'autre qui influence le second :
TAN => TMO
Malnutrition => TMO
Climat => TMO
Sous-médicalisation =>TMO
* Présence d'une cause commune :
sous-développement => TMO
=> TAN
* Présence de causalités circulaires (boucles de rétroaction)
sous-développement <=> TAN
* Finalement, le cas général est l'existence d'un système causal au sein duquel sont
placés les deux caractères étudiés. La découverte d'une corrélation ne permet pas de
conclure à l'existence d'une relation de cause à effet mais doit inciter à construire
un système causal rendant compte de la corrélation observée
Corrélation et prédiction : le paradoxe de la Grenouille d'Albert Simon.
Bien que cela soit plutôt humiliant pour l'esprit, il n'est pas toujours nécéssaire de
comprendre pour agir. Supposons que l'on observe une corrélation de +0.98 entre le
comportement de la grenouille d'Albert Simon sur son échelle et le temps du
lendemain. On peut chercher quel système causal rend compte de la liaison
observée entre le comportement de la bestiole et le temps (hygrométrie, pression,
etc). Mais ignorerions nous tout ceci, nous ne pourrions pas moins prévoir le temps
avec une bonne certitude si la corrélation est effectivement de +0.98.
Tous les proverbes du type "Noël au balcon, Pâques au tisons" ou "Noël au
scanner, Pâques au cimetierre" (P. Desproges) sont des corrélations empiriques qui
ne sont pas toujours explicables mais qui peuvent être utiles pour la prévision si
elles s'avèrent fortes.
Un danger spécifique à la géographie : l'erreur écologique.
En géographie, l'étude des corrélations se fait souvent à travers l'analyse d'un
ensemble de lieux. Lorsque les variables décrivant ces lieux sont des attributs
sociaux décrivant les habitants il faut toujours faire attention au fait qu'une
corrélation établie au niveau des lieux n'implique pas forcément une corrélation au
niveau des individus.
Exemple : Criminalité et étrangers à Trifouilly.
=> l'étude menée au niveau des individus (sociologique) montre que le taux de
criminalité est plus élevé chez les autochtones (36%) que chez les étrangers (17%).
=> pourtant, l'étude menée au niveau des quartiers (géographique) montre une
corrélation parfaite (+1) entre la proportion d'étrangers des quartiers et leur taux de
criminalité.
Il n'y a aucun paradoxe : la présence d'une corrélation au niveau des lieux signifie
simplement que là où il y a beaucoup d'étrangers il y à aussi beaucoup de
criminels, mais elle ne prouve pas que les étrangers soient la cause de la
criminalité.
Ce type d'erreur est appelé erreur écologique car elle consiste à penser que la
présence de deux phénomènes au même endroit (écosystème) implique l'existence
d'une relation causale entre ces deux phénomènes.