Régression et Corrélation Statistique
Régression et Corrélation Statistique
1 Tableaux de données
Dans certaines situations d’étude de populations, il semble exister un lien entre deux caractères
de la population. Par exemple, le poids et la taille d’un nouveau-né, la résistance thermique d’un mur
et son épaisseur ou le montant des salaires d’une entreprise et son chiffre d’affaires sont sûrement
liés. On ne peut cependant pas affirmer que ce lien est un lien de cause à effet (causalité).
Pour étudier simultanément deux caractères quantitatifs d’une même population, on introduit
deux variables x et y prenant respectivement les valeurs du premier et du deuxième caractère.
Définition
Sur une population d’effectif n, on étudie simultanément deux variables statistiques x et y . Pour
chaque individu i, avec 1 6 i 6 n, on mesure la valeur xi de la variable x et la valeur yi de la variable
y . Les couples (xl ; yl ), (x2 ; y2 ), . . . ,(xn ; yn ) forment une série statistique double ou série statistique à
deux variables x et y . Généralement, on présente cette série sous forme d’un tableau :
variable x x1 x2 ... xn
variable y y1 y2 ... yn
Exemple
Le tableau ci-dessous donne, pour huit villes des États-Unis, le nombre moyen de jours d’enso-
leillement dans l’année, ainsi que la température mensuelle moyenne en o C.
San Okla-
San Sacra- Las Denver Fran-
Villes Phenix Miami Diego mento Vegas homa
cisco City
Ensoleillement xi 161 131 127 150 159 129 158 128
Température yi 21,5 24,3 17,2 15,6 18,8 10,1 14,1 15,7
2 Nuage de points
On représente une série statistique à deux variables x et y par un nuage de points dans un repère
(O; I, J), constituédes points Mi(xi ; yi), xi et Yi étant respectivement les valeurs de x et y pour
i = 1; . . . ; n.
Exemple
On a représenté ci-après le nuage de point de l’exemple ci-dessus.
1
température
25 b
Miami
Phenix b
20 Las Vegas
San Diego b
b
San Francisco
b
Denver
10
ensoleillement
120 125 130 135 140 145 150 155 160 165
3 Point moyen
Soient x et y deux variables statistiques prenant chacune n valeurs.
On appelle point moyen du nuage de points Ml (xl ; yl ), M2 (x2 ; y2) ,. . . , Mn (xn ; yn ) le point
G(x̄; ȳ), où x̄ est la moyenne arithmétique des valeurs de la variable x et ȳ la moyenne arithmétique
des valeurs de la variable y .
x1 + x2 + · · · + xn y1 + y2 + . . . + yn
On a donc G n
;
n
Exemple
On reprend les données de l’exemple précédent. On a
161 + 131 + . . . + 128 21, 5 + 24, 3 + . . . + 15, 7
G ; G(143; 17, 2)
8 8
4 Ajustement affine
b
b b
25
Définition
b
b
b
20
Dans un nuage de points, chercher une droite qui
b b
b
b
b b
b b
15 b
10 b
b
5 b
b
b
b
b b
−10 −5 0 5 10 15 20 25 30 35 40 45 50
Remarques
• Dire que la droite "approche au mieux" le nuage de points est très subjectif !
• Si le nuage de points possèdent des points qui paraissent globalement alignés, trouver un ajus-
tement affine semble assez naturel.
Exemple
Sur le graphique ci-dessus, l’ajustement affine semble pertinent contrairement à l’exemple du
deuxième paragraphe.
2
5 Droite des moindres carrés
Propriété Soit un nuage de points M1, M2 , . . . , Mn. On considère une droite d qui réalise
un ajustement affine du nuage de points. On note P1, P2, . . . , Pn les points de la droite d qui ont
respectivement la même abscisse que les points M1 , M2, . . . , Mn .
Il existe une unique droite d qui minimise M1 P12 + M2 P22 + . . . + Mn Pn2. Cette droite est un
ajustement affine qui s’appelle la droite des moindres carré ou la droite de régression de y
en x.
15
b
P1
10
b
b
P2
M1
b
5 M2 P3
b
b
b M4
M3 b
G b
0 M5
P4 b
0 0.5 1.0 1.5 2.0M6
b
b
P5
P6
Définition et propriété
On appelle covariance des variables x (prenant les valeurs x1 , x2 , · · · + xn ) et y (prenant les
valeurs y1, y2, . . . , yn), le nombre :
n
X
(xi − x̄)(yi − ȳ)
cov(x, y) = (x1 − x̄)(y1 − ȳ) + (x2 − x̄)(y2 − ȳ) + . . . + (xn − x̄)(yn − ȳ) = i=1
n n
La droite d des moindres carrés (appelée aussi droite de régression de y en x) a pour équation :
y = ax + b avec a = cov(x,
s 2
y)
et b = ȳ − ax̄
x
où sx est l’écart type de la série statistique x et (x̄, ȳ) sont les coordonnées du point moyen G.
6 Corrélation et ajustement
Définition On appelle coefficient de corrélation linéaire d’une série statistique à deux variables
x et y , le nombre r défini par :
r=
cov(x, y)
sx sy
3
où sx est l’écart type de la série x et sy est l’écart type de la série y .
Propriété
r est un nombre réel tel que −1 6 r 6 1
Remarques
• il ne faut pas confondre corrélation et causalité. Une forte corrélation entre deux variables ne
signifie pas qu’il y a un lien de cause à effet entre les valeurs des deux variables ni que l’une
est la cause de l’autre.
• Lorsque le coefficient de corrélation linéaire est proche de 0, cela signifie que le nuage de points
ne peut pas être "ajusté au mieux" par une droite. Il se peut qu’un autre type de courbes puisse
l’ajuster au mieux.
r=1 r = 0, 9 r = 0, 75 r = 0, 5 r=0
b b b
b
b
b b b b b
b b b b
b b
b b b b
b b b
b b b b
b b b
8 8 8 b
b
b
b
b
b
b
8 b
b b
b b b
b
b
8 b b
b b
b
b
b
b b
b
b
b b b
b b
b
b
b
b b
bb b b b
b b b b b
bb b b bb b b
b b b b b b b b
b
6 b b bb
b b
bbb
bbb
b bb
6 b
bb
b
b
b
b
b
b b
b
b
b 6 b b
b b
b
b
b b
b
b
b b
b
b
6 b b
b
b
b
b
b
b
b
b b
b
b b
6 b
b
b
bb b b b b b b b b b
bb b b b b b b b b b b b b
b b b b b bb
b b b b b b b
b bb b b
b b b b bb b b b b b b b b
b
b b b b b b b b b b b
bb b b b
4 bb b b
b b
b b
bb
bbb b
b bb
4 b
b
bb
b
b
b
b b
b
b b
b
b b
b b
b
4 b
b
b
b
b
b
b b b
b
b
4 b
b
b
b
b b
b
b
b
b
b
bb bb b
bb
b 4 b
b
b
b
b
b
b
b b
b b b b b b
b bb b b b b
bb b b b b b b b b b b bb
b b
b b b
bb b
b bb b b b b b
bb b b bb b b b
b b b
bb b b b b b
2 b b
b b b bb
b bb
b bb b b
bb bb
2 b b
b
b
b
b b
b bb
b
bb
b
b
b b
b
2 b
b
b
b bb
b
b
b
b
b
2 b b
b
b
b
b b
b
b
b
b
b
2 b
b
b b
b
b
b
b
b
b b b b b
b b b b b
b b b b bb
b b b b b b b
b b b b b
b b b
b b b b b
b
b b b
bb b
b
b
b
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
r = −1 r = −0.9 r = −0.75 r = −0.5 r=0
b
b
b b
b
b
b b
b b
b b b b b
b b b b
b b b
b b b b b
b b
b b b
b b b b b
b b b b
b b b b
b b b b b b
b b b b
8 bb b
b b
bbb b
bb b
b
8 b
b b
b
b b
b
b
b 8 b
b
b
b b b
b
8 b
b
b b
8 b b
b b
b
b
b
b b
b
b
b b b b
b
b b bb b
b b
b b bb b b b
b b b b b
b b b b b b b
b b b b bb b
b b b b
b b
6 bb b b
b bb
b bb
6 b
b b
b
b
b
b 6 b
b
b
b
b
b
b
b
b
b
b
b
6 b
b
b b
b
b
b 6 b
b
b
bb b b b b b b b
bb bb b b b b b b b b b b
b b b b b b b b b b b
bb b b
b b b b b b b b
b b b b b b b b
4 b bb
bb
b bbb
b b
b bb
bb
4 b b
bb b
b b
b b
b
bb
b
4 b
b
b
b
b b
b b b
4 b
b
b
b
b
b b
4 b
b
b
b
b
b
b
b b
b
b b bb b
b b bb b bb b b b b b b b b
b bbb b b b bb b b b
b b b b
b b b b b
bb b b
bb b b b b
2 bb
b
b
b
bb
2 b
b b
b
b
b
b
b
b b
bb
2 b
b
b
b
b
b
b
b
b
b
b 2 b b
b b b
b
b
b
b
b 2 b
b
b b
b
b
b
b
b
bbb b b
b bb bb b
b b b b b b
b bb b b b b b b b bb
b b bb b b b
b b b b
bbb
b b bb b b b b b b b
b b b b b b
b b
b b b b b b
b b
b
b b b
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 b
2 b
4 6 b
b 8 b b
0 2 4 6 8
r=0 r=0 r=0 r=0 r=0
b b
b
b
b
b b
b
b
b b
b
b b
b
b b
b bb
b
b
b
b
b b
b
bb
b b b
b
b bb
bb
20 b
bb
b
b b bb b
bb
b
b
b
1 bb
b b b b
b
b
b bb b b b
b b bb b b
8 8 b
b
b
b
b b b bb
b
b
b bb
b
b
b b b
b
b
8
b bb
b b
b
b
b
b
b
b
b
15 b
b
b
bb
b
bb
bb
b b b
b
b
b
6 b b b b b b bb
b bb b b bb b b b b b b b
b
6 b
bb
b
b
b
b
b
b b
bb b
b
b
6 b bb
b
b
b
b b bb b
b
b
bb
b b
b
b
b b
b
b b bbb b
bb
b b
b bb
b
b bb
b b b b b b b b bb bb b b b b b b b b b b b b b b b b b b
bb b b b b b b b b
b b b b bb b b
b b b b b bbb b b
bbb b
b
b b
b
b
b b bb
b
b
b
b 10 b
b
0 bb
b b
b b
b
bbb
b
b
b
bb
b
b
b b b
b
b
b
b b
bb
b
b bb b b
b
b
b
bb
b b b b
b bb
b
4 4 b
b b
b
b
b
b
b
b b
bb
b
−6 −4 −2 0
b
b b b bb
b
b
2 bb
b
b 4 4 b
b b b
b bb
b bb b b
b b
bb b b
b bb b b b
bb b bb b b b
2 2 b bb
b
b
b b
b
b b
b b
b
b
b b b
b
b
5 b
bb
b
b bb
b
b
b
b b
b
b
b b
bb
b
2
b b b b b b
b bb b
b
b b b b
b
b
bb
bb
bb
−1 b
b
b
b b b b b
b bb b b
b b bb
bb b b bb b b bb
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
Définition
Lorsque |r| est proche de 1 (0.75 6 |r| 6 1), on dit que la corrélation linéaire entre les séries
x et y est forte.
7 Changement de variables
Lorsqu’un nuage de points est constitué de points qui ne paraissent pas globalement alignés, on
peut être amené à déterminer d’autres types d’ajustements que l’ajustement affine.
Exemple
4
Vitesse xi 0 30 60 90 120 140
Le tableau ci-contre donne les vitesses xi d’un vé- Distance yi 0 18 58 120 212 285
hicule (en km · h−1 ) et la distance de freinage yi yi
(en m) correspondante pour chacune des vitesses.
b
arrondies au dixième.
b
10
b
xi
√
0 30 60 90 120 140 5 b
0 20 40 60 80 100 120
La forme de la courbe nous fait penser à une parabole. On procède à un changement de variable
pour se ramener à une méthode d’ajustement affine connue. On pose z = √y. Les valeurs sont
arrondies au dixième.
8 Exercices
8.1 Exercice
b
b
b
b
b
b
b
b b
b
8 b
b
b
b b b 8 b b b b
b
b
b b
8 b
b
b
bb
b
bb
b 8 b b b
b b b
b b
b b
b
b b
b b
b bb
b
b
b b
b
b
6 b b
b b bb
b b
b
b
b b
b
b
b
b
b
b b
b
b b b
b
b
b
b
b
b
b
b
b
b b
b
6 b
b b
b b
b
b
6
b b
b b
b
b
b
b
b
6 b
b b
b
b
b
b b
b
b
4 b
b
b
bb
b
b
6 b
b
b
b
b
b b b b bb
b b b
b
b
b bb
b
b
b b bb
b
b
b b b
b
b
b
bb
b
b
4 b
b
b
b
b b
b
b
b
b
b b
b
b
b
b b
b
b
b
b
b b
b
2 b
b
b
bb b
b b b b
b
b
b
b
b b
b b
b
b b
b b
b
b
b
b
b
b
b
b
b 2 b b
b
b
b b
b b
b b
b
4 b b
b
b
b
4 b
b
b
b
b
b b
b
b
b
0 b
b b
b
b
b
b
4
b
b
b
b
b
b b
b b b
0 b
b
b
b
b
b b
b b
b
b
b
b
b
b
b b b b
b
b b
b b 2 0 2 4
b
b
b
6
b
b
b
b b
8 b
b
b
b
b
b
2 0 2
b
b
b b
b
b 4 b
6 8
2 b
b b
4 b
b
b b b
bb
b
b
2 4 b b b b
b b
b
b b
b
b
b
b
b
b
b
b
2 b b
b b
b
6 b b
b
b
b
b
b
b
b b
6 b
b
b
b
b
b
b
b b b
b b b
b
b b
b b
b b
b
b b
b
b
8 b
b b
b
b
8 b
b
b b
b
b b
b
b
b
10 b
b
b
b
10 b
0 2 b
4 b
b
6 b
b
b
8 b
b
b
b
b
b
0 2 4 6 b
8 b
0 2 4 6 8
b b b
8.2 Exercice b
b
5
1. Dans un repère orthonormé, représenter le nuage de points (xi , yi). Peut-il être modéliser par
une droite ?
2. Calculer "à la main" l’équation de la droite de régression de y en x. Vérifier à l’aide de la
fonction STAT de votre calculatrice.
3. Tracer la droite dans le repère.
4. Calculer "à la main" le coefficient de corrélation linéaire. Vérifier à l’aide de la fonction STAT
de votre calculatrice.
5. A l’aide de cette modélisation :
(a) donner 2 méthodes pour trouver la pression avec 15 moles (interpolation).
(b) donner 2 méthodes pour trouver la pression avec 50 moles (extrapolation).
(c) donner 2 méthodes pour trouver le nombre de moles pour une pression de 200 kPa
6. Entre le nombre de moles et la pression, y-a-t-il une corrélation ? une causalité ? Justifier
8.3 Exercice
Une enquête réalisée sur le territoire national, donne la série statistique à deux variables suivante :
la variable y prend pour valeurs la superficie certifiée de production biologique yi (en hectare) pour
l’année 2012 + xi , où xi est le rang de l’année depuis 2012. Dans un premier temps, les résultats de
2013 jusqu’à 2017 ont été publiés et sont consignés dans le tableau ci-dessous.
1. Placer les données dans un repère (commencer à 450 sur l’axe des ordonnées).
2. (a) Calculer la moyenne et l’écart type des valeurs de la série x. Détailler les calculs.
(b) Déterminer, en détaillant le calcul, la valeur de cov(x; y).
(c) En déduire l’équation de la droite de régression de y en x pour ce nuage de points. Les
coefficients seront arrondis à l’unité près.
(d) Vérifier à la calculatrice les calculs précédents et déterminer avec la calculatrice le co-
efficient de corrélation linéaire r arrondi à 10−3 près. Interpréter ce coefficient dans le
contexte de l’exercice.
3. En utilisant l’ajustement précédent, estimer la superficie totale consacrée à l’agriculture biolo-
gique en 2019 arrondie à l’hectare.
4. Des donnés supplémentaires ont été publiés par la suite.
Année 2018 2019 2020
xi 6 7 8
yi 577 690 892
(a) Placer les données précédentes sur le graphique.
(b) L’ajustement affine précédent est-il finalement valable ? Expliquer.
6
8.4 Exercice
Le tableau ci-dessous donne les valeurs yi de la charge maximale y en tonne qu’une grue peut lever
pour les valeurs xi de la longueur x (en mètre) de sa flèche .
xi 16,5 18 19,8 22 25 27 29 32 35 39 41,7
yi 10 9 8 7 6 5,5 5 4,5 4 3,5 3,2
1. Représenter le nuage de points dans un repère orthogonal. On prendra comme unité 1 cm pour
2 m sur l’axe des abscisses et 1 cm pour 1 tonne sur l’axe des ordonnées.
2. Déterminer, à l’aide de la calculatrice, le coefficient de corrélation linéaire de cette série statis-
tique à deux variables. Interpréter le résultat.
3. La forme du nuage de points permet d’envisager un changement de variable pour mettre en
évidence un ajustement de cette série à deux variables x et y . On pose z = y1 .
Déterminer les valeurs zi de la variable z. Arrondir à 10−3 près.
4. Déterminer l’équation de la droite des moindres carrés pour la série statistique à deux variables
x et z . Arrondir les coefficients à 10−4 près.
8.5 Exercice
En théorie, la vitesse initiale Vi d’une réaction pour une concentration initiale Si en saccharose vérifie :
1 KM 1 1
= × +
Vi Vmax Si Vmax
On se propose de déterminer les paramètre Vmax et KM â partir de résultats expérimentaux.
On a obtenu les résultats suivants :
Si 2 4 5 8 10
Vi 50 89 114 155 200
On pose xi = S1 et yi = V1
i i
Afin de freiner l’évolution d’une maladie dégénérative de l’œil, on injecte par intraveineuse un médi-
cament qui permet de mieux vasculariser la rétine et son pourtour.
À l’instant t = 0, on injecte une dose de 1,8 mg médicament appelée dose de charge. Une pompe in-
jecte ensuite le médicament de manière continue. On admet que la quantité de médicament présente
dans le sang évolue au cours du temps et que, grâce à l’élimination rénale, elle ne peut dépasser une
valeur limite l.
Dans la pratique, on dit que l’état stationnaire d’un médicament est atteint dès que la quantité de ce
médicament dans le sang s’approche à moins de 1 mg de cette valeur limite l. On veut estimer l’état
stationnaire du médicament considéré et envisager à partir de quand il sera atteint. On effectue 7
mesures régulières pendant 24 heures et on consigne les résultats dans le tableau suivant. On note t
la variable temps (en heure) qui prend les valeurs ti et q la variable quantité de médicament (en mg)
qui prend les valeurs qi.
ti 0 4 8 12 16 20 24
qi 1,8 9,5 15,5 20,2 23,7 26,8 28,7