0% ont trouvé ce document utile (0 vote)
31 vues8 pages

Régression et Corrélation Statistique

Le document présente des concepts statistiques liés à l'étude de la relation entre deux variables quantitatives, notamment la régression et la covariance. Il explique comment représenter des données sous forme de nuage de points, calculer un point moyen, réaliser un ajustement affine et déterminer la droite des moindres carrés. Enfin, il aborde la notion de corrélation linéaire et souligne la distinction entre corrélation et causalité.

Transféré par

olivier
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
31 vues8 pages

Régression et Corrélation Statistique

Le document présente des concepts statistiques liés à l'étude de la relation entre deux variables quantitatives, notamment la régression et la covariance. Il explique comment représenter des données sous forme de nuage de points, calculer un point moyen, réaliser un ajustement affine et déterminer la droite des moindres carrés. Enfin, il aborde la notion de corrélation linéaire et souligne la distinction entre corrélation et causalité.

Transféré par

olivier
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

LE MANS UNIVERSITE -IUT DE LAVAL

BUT Génie Biologique-Année 1 – Semestre 1 – Année 2021-2022

R1.06 MATHÉMATIQUES : TD du 20/10/21


Régression

1 Tableaux de données
Dans certaines situations d’étude de populations, il semble exister un lien entre deux caractères
de la population. Par exemple, le poids et la taille d’un nouveau-né, la résistance thermique d’un mur
et son épaisseur ou le montant des salaires d’une entreprise et son chiffre d’affaires sont sûrement
liés. On ne peut cependant pas affirmer que ce lien est un lien de cause à effet (causalité).
Pour étudier simultanément deux caractères quantitatifs d’une même population, on introduit
deux variables x et y prenant respectivement les valeurs du premier et du deuxième caractère.
Définition
Sur une population d’effectif n, on étudie simultanément deux variables statistiques x et y . Pour
chaque individu i, avec 1 6 i 6 n, on mesure la valeur xi de la variable x et la valeur yi de la variable
y . Les couples (xl ; yl ), (x2 ; y2 ), . . . ,(xn ; yn ) forment une série statistique double ou série statistique à
deux variables x et y . Généralement, on présente cette série sous forme d’un tableau :
variable x x1 x2 ... xn
variable y y1 y2 ... yn

Exemple
Le tableau ci-dessous donne, pour huit villes des États-Unis, le nombre moyen de jours d’enso-
leillement dans l’année, ainsi que la température mensuelle moyenne en o C.
San Okla-
San Sacra- Las Denver Fran-
Villes Phenix Miami Diego mento Vegas homa
cisco City
Ensoleillement xi 161 131 127 150 159 129 158 128
Température yi 21,5 24,3 17,2 15,6 18,8 10,1 14,1 15,7

2 Nuage de points
On représente une série statistique à deux variables x et y par un nuage de points dans un repère
(O; I, J), constituédes points Mi(xi ; yi), xi et Yi étant respectivement les valeurs de x et y pour
i = 1; . . . ; n.
Exemple
On a représenté ci-après le nuage de point de l’exemple ci-dessus.

1
température
25 b
Miami
Phenix b

20 Las Vegas
San Diego b

Oklahoma City Sacramento


15 b
b

b
San Francisco

b
Denver
10

ensoleillement
120 125 130 135 140 145 150 155 160 165

3 Point moyen
Soient x et y deux variables statistiques prenant chacune n valeurs.
On appelle point moyen du nuage de points Ml (xl ; yl ), M2 (x2 ; y2) ,. . . , Mn (xn ; yn ) le point
G(x̄; ȳ), où x̄ est la moyenne arithmétique des valeurs de la variable x et ȳ la moyenne arithmétique
des valeurs de la variable y . 
x1 + x2 + · · · + xn y1 + y2 + . . . + yn
On a donc G n
;
n
Exemple
On reprend les données de l’exemple précédent. On a
161 + 131 + . . . + 128 21, 5 + 24, 3 + . . . + 15, 7
G ; G(143; 17, 2)
8 8

4 Ajustement affine
b

b b

25

Définition
b

b
b

20
Dans un nuage de points, chercher une droite qui
b b
b
b
b b
b b

"approche au mieux" tous les points du nuage s’ap-


b

15 b

pelle réaliser un ajustement affine


b
b b

La droite trouvée s’appelle un ajustement affine du


b b

10 b
b

nuage de points ou une droite de régression


b
b
b
b

5 b

b
b

b
b b

−10 −5 0 5 10 15 20 25 30 35 40 45 50
Remarques
• Dire que la droite "approche au mieux" le nuage de points est très subjectif !
• Si le nuage de points possèdent des points qui paraissent globalement alignés, trouver un ajus-
tement affine semble assez naturel.
Exemple
Sur le graphique ci-dessus, l’ajustement affine semble pertinent contrairement à l’exemple du
deuxième paragraphe.

2
5 Droite des moindres carrés
Propriété Soit un nuage de points M1, M2 , . . . , Mn. On considère une droite d qui réalise
un ajustement affine du nuage de points. On note P1, P2, . . . , Pn les points de la droite d qui ont
respectivement la même abscisse que les points M1 , M2, . . . , Mn .
Il existe une unique droite d qui minimise M1 P12 + M2 P22 + . . . + Mn Pn2. Cette droite est un
ajustement affine qui s’appelle la droite des moindres carré ou la droite de régression de y
en x.
15

b
P1

10
b
b
P2
M1
b

5 M2 P3
b
b
b M4
M3 b
G b

0 M5
P4 b
0 0.5 1.0 1.5 2.0M6
b

b
P5
P6

Définition et propriété
On appelle covariance des variables x (prenant les valeurs x1 , x2 , · · · + xn ) et y (prenant les
valeurs y1, y2, . . . , yn), le nombre :
n
X
(xi − x̄)(yi − ȳ)
cov(x, y) = (x1 − x̄)(y1 − ȳ) + (x2 − x̄)(y2 − ȳ) + . . . + (xn − x̄)(yn − ȳ) = i=1
n n

La covariance s’exprime aussi sous la forme :


n
X
xi yi
cov(x, y) = x1 y1 + x2 y2 n+ . . . + xn yn − x̄ȳ = i=1
n
− x̄ȳ

La droite d des moindres carrés (appelée aussi droite de régression de y en x) a pour équation :

y = ax + b avec a = cov(x,
s 2
y)
et b = ȳ − ax̄
x

où sx est l’écart type de la série statistique x et (x̄, ȳ) sont les coordonnées du point moyen G.

6 Corrélation et ajustement
Définition On appelle coefficient de corrélation linéaire d’une série statistique à deux variables
x et y , le nombre r défini par :

r=
cov(x, y)
sx sy
3
où sx est l’écart type de la série x et sy est l’écart type de la série y .
Propriété
r est un nombre réel tel que −1 6 r 6 1
Remarques
• il ne faut pas confondre corrélation et causalité. Une forte corrélation entre deux variables ne
signifie pas qu’il y a un lien de cause à effet entre les valeurs des deux variables ni que l’une
est la cause de l’autre.
• Lorsque le coefficient de corrélation linéaire est proche de 0, cela signifie que le nuage de points
ne peut pas être "ajusté au mieux" par une droite. Il se peut qu’un autre type de courbes puisse
l’ajuster au mieux.
r=1 r = 0, 9 r = 0, 75 r = 0, 5 r=0
b b b
b
b
b b b b b
b b b b
b b
b b b b
b b b
b b b b
b b b
8 8 8 b
b
b
b
b
b
b
8 b
b b
b b b
b
b
8 b b
b b
b
b

b
b b

b
b

b b b
b b
b
b
b
b b
bb b b b
b b b b b
bb b b bb b b
b b b b b b b b
b
6 b b bb
b b
bbb
bbb
b bb
6 b
bb
b

b
b
b
b
b b
b
b
b 6 b b
b b
b
b
b b
b

b
b b
b
b
6 b b
b
b
b
b
b
b
b

b b
b
b b
6 b

b
b

bb b b b b b b b b b
bb b b b b b b b b b b b b
b b b b b bb
b b b b b b b
b bb b b
b b b b bb b b b b b b b b
b
b b b b b b b b b b b
bb b b b
4 bb b b
b b
b b
bb
bbb b
b bb
4 b
b
bb
b
b
b
b b
b
b b
b

b b
b b

b
4 b
b
b
b
b
b
b b b
b
b
4 b
b

b
b
b b
b
b
b
b
b
bb bb b
bb
b 4 b
b
b
b
b
b
b
b b
b b b b b b
b bb b b b b
bb b b b b b b b b b b bb
b b
b b b
bb b
b bb b b b b b
bb b b bb b b b
b b b
bb b b b b b
2 b b
b b b bb
b bb
b bb b b
bb bb
2 b b

b
b

b
b b
b bb
b
bb
b
b

b b
b
2 b
b
b
b bb
b
b
b
b
b
2 b b
b
b

b
b b

b
b
b
b
b
2 b
b
b b

b
b
b
b
b

b b b b b
b b b b b
b b b b bb
b b b b b b b
b b b b b
b b b
b b b b b
b
b b b
bb b
b
b
b
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
r = −1 r = −0.9 r = −0.75 r = −0.5 r=0
b
b
b b
b
b

b b
b b
b b b b b
b b b b
b b b
b b b b b
b b
b b b
b b b b b
b b b b
b b b b
b b b b b b
b b b b
8 bb b
b b
bbb b
bb b
b
8 b
b b
b
b b
b
b
b 8 b
b
b
b b b
b
8 b
b
b b
8 b b
b b
b
b

b
b b

b
b

b b b b
b
b b bb b
b b
b b bb b b b
b b b b b
b b b b b b b
b b b b bb b
b b b b
b b

6 bb b b
b bb
b bb
6 b
b b
b
b
b
b 6 b
b
b
b
b
b
b
b
b
b
b
b
6 b

b
b b

b
b
b 6 b

b
b

bb b b b b b b b
bb bb b b b b b b b b b b
b b b b b b b b b b b
bb b b
b b b b b b b b
b b b b b b b b
4 b bb
bb
b bbb
b b
b bb
bb
4 b b
bb b
b b
b b

b
bb

b
4 b
b
b
b
b b
b b b
4 b
b
b

b
b
b b
4 b
b
b
b
b
b
b
b b
b
b b bb b
b b bb b bb b b b b b b b b
b bbb b b b bb b b b
b b b b
b b b b b
bb b b
bb b b b b
2 bb
b
b
b
bb
2 b
b b
b
b

b
b
b
b b
bb
2 b
b
b
b
b
b
b

b
b
b
b 2 b b
b b b
b
b
b
b
b 2 b
b
b b

b
b
b
b
b

bbb b b
b bb bb b
b b b b b b
b bb b b b b b b b bb
b b bb b b b
b b b b
bbb
b b bb b b b b b b b
b b b b b b
b b
b b b b b b
b b
b
b b b

0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 0 b
2 b
4 6 b
b 8 b b
0 2 4 6 8
r=0 r=0 r=0 r=0 r=0
b b
b
b

b
b b
b
b
b b
b

b b
b
b b
b bb
b

b
b
b
b b
b
bb
b b b

b
b bb
bb
20 b
bb
b
b b bb b
bb
b

b
b

1 bb
b b b b
b
b

b bb b b b
b b bb b b
8 8 b
b
b
b
b b b bb
b
b
b bb
b
b

b b b
b
b
8
b bb
b b
b
b

b
b
b
b
b
15 b
b
b
bb
b
bb
bb
b b b
b
b
b

6 b b b b b b bb
b bb b b bb b b b b b b b
b
6 b
bb
b
b
b
b
b
b b

bb b
b

b
6 b bb
b
b
b
b b bb b
b
b
bb
b b
b
b
b b
b
b b bbb b
bb
b b
b bb
b
b bb
b b b b b b b b bb bb b b b b b b b b b b b b b b b b b b
bb b b b b b b b b
b b b b bb b b
b b b b b bbb b b
bbb b
b
b b
b
b
b b bb
b
b
b
b 10 b
b
0 bb
b b
b b
b
bbb
b
b
b
bb
b
b
b b b
b
b
b
b b
bb
b
b bb b b
b
b
b
bb
b b b b
b bb
b

4 4 b
b b
b
b
b
b
b
b b
bb
b
−6 −4 −2 0
b
b b b bb
b
b
2 bb
b
b 4 4 b
b b b

b bb
b bb b b
b b
bb b b
b bb b b b
bb b bb b b b
2 2 b bb
b
b
b b
b
b b
b b
b
b
b b b
b
b
5 b
bb
b
b bb

b
b
b
b b
b
b
b b
bb
b
2
b b b b b b
b bb b

b
b b b b
b
b
bb
bb
bb
−1 b
b
b
b b b b b
b bb b b
b b bb
bb b b bb b b bb

0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
Définition
Lorsque |r| est proche de 1 (0.75 6 |r| 6 1), on dit que la corrélation linéaire entre les séries
x et y est forte.

7 Changement de variables
Lorsqu’un nuage de points est constitué de points qui ne paraissent pas globalement alignés, on
peut être amené à déterminer d’autres types d’ajustements que l’ajustement affine.
Exemple

4
Vitesse xi 0 30 60 90 120 140
Le tableau ci-contre donne les vitesses xi d’un vé- Distance yi 0 18 58 120 212 285
hicule (en km · h−1 ) et la distance de freinage yi yi
(en m) correspondante pour chacune des vitesses.
b

Le nuage de points obtenu avec les valeurs x et y ne 200 b

permet pas d’envisager un ajustement affine. On


procède à un changement de variable pour se ra- 100 b

mener à une méthode d’ajustement affine connue. xi


b

La forme de la courbe nous fait penser à une pa- 0 20 40 60 80 100 120


b

rabole. On procède à un changement de variable yi


pour se ramener à une méthode d’ajustement af- b

fine connue. On pose z = √y. Les valeurs sont 15


b

arrondies au dixième.
b

10
b

xi

0 30 60 90 120 140 5 b

zi = yi 0 4,2 7,6 11 14,6 16.9 xi


b

0 20 40 60 80 100 120

La forme de la courbe nous fait penser à une parabole. On procède à un changement de variable
pour se ramener à une méthode d’ajustement affine connue. On pose z = √y. Les valeurs sont
arrondies au dixième.

8 Exercices
8.1 Exercice

On considère une série statistique à deux variables x et y .


1. Rappeler la formule donnant la valeur du coefficient directeur a de la droite des moindres carrés
de la série statistique.
2. Rappeler la formule donnant la valeur du coefficient de corrélation linéaire r de la série statis-
tique.
3. Montrer que a et r ont le même signe.
4. On considère cinq nuages de points, tracés ci-après. Pour chaque nuage de points, retrouver
parmi les nombres suivants, une valeur possible du coefficient de corrélation linéaire.
b

b
b

a) -0,9 b)−0, 42 c) 0,1 d) 0,54 e) 0,92 bb


b

b
b
b

b
b

b b
b

(1) (2) (3) (4) (5)


b b
b
b
b
b b
b b b
b
b
b b
b b bb
b b b b
b b
b
b
b b b
b b b b
b b b
b b b b b b bb
b b b b b b
b b b b
b b b b b
b b b bb
b b b b b b
b b b b

8 b
b
b

b b b 8 b b b b
b
b

b b
8 b
b
b
bb
b
bb
b 8 b b b
b b b
b b

b b
b
b b
b b

b bb

b
b
b b
b
b
6 b b
b b bb
b b
b
b

b b
b
b
b
b

b
b b
b
b b b
b
b
b
b
b
b
b
b
b
b b
b
6 b
b b
b b
b
b

6
b b

b b
b
b
b

b
b
6 b
b b
b
b
b
b b

b
b
4 b
b
b
bb
b
b

6 b
b
b
b
b

b b b b bb
b b b
b
b
b bb
b
b
b b bb

b
b
b b b
b
b
b
bb

b
b
4 b
b
b
b
b b
b

b
b

b
b b
b
b
b
b b

b
b
b
b

b b
b
2 b
b
b
bb b
b b b b
b
b

b
b

b b
b b
b
b b
b b
b
b

b
b

b
b

b
b
b 2 b b
b
b
b b
b b
b b
b

4 b b
b
b
b

4 b
b
b

b
b
b b

b
b
b
0 b
b b
b
b
b
b

4
b
b

b
b
b
b b
b b b
0 b
b
b
b
b
b b
b b

b
b

b
b
b
b
b b b b
b
b b
b b 2 0 2 4
b
b
b

6
b
b
b
b b
8 b
b
b
b
b
b
2 0 2
b
b
b b
b
b 4 b
6 8
2 b
b b
4 b
b
b b b
bb
b
b

2 4 b b b b
b b
b
b b
b

b
b
b
b
b
b
b
2 b b

b b
b

6 b b
b

b
b
b
b
b
b b
6 b
b

b
b
b
b

b
b b b
b b b
b

b b
b b
b b
b
b b
b
b
8 b
b b

b
b
8 b
b
b b
b

b b
b
b
b
10 b
b
b
b
10 b

0 2 b
4 b
b
6 b
b
b
8 b
b
b

b
b
b
0 2 4 6 b
8 b
0 2 4 6 8
b b b

8.2 Exercice b
b

Sous des conditions de température et de vo-


lume constant, on étudie la pression et la Nombre de moles xi 0 10 20 30
quantité de matière d’un gaz. Les résultats b
Pression (en kPa) yi 0 46 98 145
dans le tableau.

5
1. Dans un repère orthonormé, représenter le nuage de points (xi , yi). Peut-il être modéliser par
une droite ?
2. Calculer "à la main" l’équation de la droite de régression de y en x. Vérifier à l’aide de la
fonction STAT de votre calculatrice.
3. Tracer la droite dans le repère.
4. Calculer "à la main" le coefficient de corrélation linéaire. Vérifier à l’aide de la fonction STAT
de votre calculatrice.
5. A l’aide de cette modélisation :
(a) donner 2 méthodes pour trouver la pression avec 15 moles (interpolation).
(b) donner 2 méthodes pour trouver la pression avec 50 moles (extrapolation).
(c) donner 2 méthodes pour trouver le nombre de moles pour une pression de 200 kPa
6. Entre le nombre de moles et la pression, y-a-t-il une corrélation ? une causalité ? Justifier

8.3 Exercice

Une enquête réalisée sur le territoire national, donne la série statistique à deux variables suivante :
la variable y prend pour valeurs la superficie certifiée de production biologique yi (en hectare) pour
l’année 2012 + xi , où xi est le rang de l’année depuis 2012. Dans un premier temps, les résultats de
2013 jusqu’à 2017 ont été publiés et sont consignés dans le tableau ci-dessous.

Année 2013 2014 2015 2016 2017


xi 1 2 3 4 5
yi 466 503 491 506 532

1. Placer les données dans un repère (commencer à 450 sur l’axe des ordonnées).
2. (a) Calculer la moyenne et l’écart type des valeurs de la série x. Détailler les calculs.
(b) Déterminer, en détaillant le calcul, la valeur de cov(x; y).
(c) En déduire l’équation de la droite de régression de y en x pour ce nuage de points. Les
coefficients seront arrondis à l’unité près.
(d) Vérifier à la calculatrice les calculs précédents et déterminer avec la calculatrice le co-
efficient de corrélation linéaire r arrondi à 10−3 près. Interpréter ce coefficient dans le
contexte de l’exercice.
3. En utilisant l’ajustement précédent, estimer la superficie totale consacrée à l’agriculture biolo-
gique en 2019 arrondie à l’hectare.
4. Des donnés supplémentaires ont été publiés par la suite.
Année 2018 2019 2020
xi 6 7 8
yi 577 690 892
(a) Placer les données précédentes sur le graphique.
(b) L’ajustement affine précédent est-il finalement valable ? Expliquer.
6
8.4 Exercice

Le tableau ci-dessous donne les valeurs yi de la charge maximale y en tonne qu’une grue peut lever
pour les valeurs xi de la longueur x (en mètre) de sa flèche .
xi 16,5 18 19,8 22 25 27 29 32 35 39 41,7
yi 10 9 8 7 6 5,5 5 4,5 4 3,5 3,2

1. Représenter le nuage de points dans un repère orthogonal. On prendra comme unité 1 cm pour
2 m sur l’axe des abscisses et 1 cm pour 1 tonne sur l’axe des ordonnées.
2. Déterminer, à l’aide de la calculatrice, le coefficient de corrélation linéaire de cette série statis-
tique à deux variables. Interpréter le résultat.
3. La forme du nuage de points permet d’envisager un changement de variable pour mettre en
évidence un ajustement de cette série à deux variables x et y . On pose z = y1 .
Déterminer les valeurs zi de la variable z. Arrondir à 10−3 près.
4. Déterminer l’équation de la droite des moindres carrés pour la série statistique à deux variables
x et z . Arrondir les coefficients à 10−4 près.

5. Exprimer y en fonction de z puis y en fonction de x.


6. En utilisant cet ajustement comme modèle mathématique, quelle charge maximale, arrondie
au kg, peut lever la grue avec une flèche de 26 mètres ?

8.5 Exercice

En théorie, la vitesse initiale Vi d’une réaction pour une concentration initiale Si en saccharose vérifie :
1 KM 1 1
= × +
Vi Vmax Si Vmax
On se propose de déterminer les paramètre Vmax et KM â partir de résultats expérimentaux.
On a obtenu les résultats suivants :
Si 2 4 5 8 10
Vi 50 89 114 155 200

On pose xi = S1 et yi = V1
i i

1. (a) À l’aide de la calculatrice, présenter les valeurs de xi et yi dans un tableau. Arrondir au


millième.
(b) Dans un repère, représenter le nuage de points Mi (xi; yi)
2. (a) Déterminer l’équation de la droite de régression de y en x. Arrondir au dix-millième.
(b) En déduire Vmax et KM . Arrondir au centième si besoin.
(c) Estimer la vitesse initiale de la réaction lorsque la concentration Si initiale est Si = 16.
Arrondir à l’unité.
(d) Estimer la concentration initiale lorsque la vitesse de réaction est Vi = 180. Arrondir au
dixième.
7
8.6 Exercice

Afin de freiner l’évolution d’une maladie dégénérative de l’œil, on injecte par intraveineuse un médi-
cament qui permet de mieux vasculariser la rétine et son pourtour.
À l’instant t = 0, on injecte une dose de 1,8 mg médicament appelée dose de charge. Une pompe in-
jecte ensuite le médicament de manière continue. On admet que la quantité de médicament présente
dans le sang évolue au cours du temps et que, grâce à l’élimination rénale, elle ne peut dépasser une
valeur limite l.
Dans la pratique, on dit que l’état stationnaire d’un médicament est atteint dès que la quantité de ce
médicament dans le sang s’approche à moins de 1 mg de cette valeur limite l. On veut estimer l’état
stationnaire du médicament considéré et envisager à partir de quand il sera atteint. On effectue 7
mesures régulières pendant 24 heures et on consigne les résultats dans le tableau suivant. On note t
la variable temps (en heure) qui prend les valeurs ti et q la variable quantité de médicament (en mg)
qui prend les valeurs qi.
ti 0 4 8 12 16 20 24
qi 1,8 9,5 15,5 20,2 23,7 26,8 28,7

1. Tracer le nuage de points de la série statistique de deux variables t et q. Expliquer pourquoi il


semble qu’on ne puisse pas envisager un ajustement affine.
2. Calculer les coordonnées du point moyen.
3. On envisage un changement de variable pour déterminer une expression de q en fonction de t.
(a) On pose yi = ln(36 − qi). Déterminer les valeurs de la variable y arrondies à 10−3 près.
(b) Calculer la droite de régression de y en t.
4. En utilisant la droite de régression, exprimer q en fonction de y puis q en fonction de t.
5. Déterminer la limite de la variable q lorsque t tend vers +∞.
6. Démontrer que, selon cet ajustement, l’état stationnaire sera atteint en moins de quatre jours.

Vous aimerez peut-être aussi