Introduction à la régression linéaire
Introduction à la régression linéaire
Prévision
Statistiques
La régression linéaire
d'observations Hxi , yi L que l’on peut représenter sur un graphique, dans le plan !2 , où chaque point
mesure de ces deux variables sur 100 éprouvettes. On dispose donc d’un échantillon de n couples
(7.1)
Les mesures sont en effet toujours entachées de quelque imprécision. Les points forment alors
un nuage. Mais celui-ci présente une orientation qui suggère, par exemple, que lorsque X
augmente, la valeur moyenne de Y augmente également.
(7.2)
Lorsque X est donné, Y n’est pas complètement déterminé : ses valeurs se dispersent autour
d'une certaine valeur moyenne. Mais les valeurs moyennes décrivent, lorsque X varie, une courbe
qui est appelée la ligne de régression de Y par rapport à X :
108 Chapitre 7 : La régression linéaire
EHY ê X = xL = f HxL.
La liaison entre Y et X est alors appelée stochastique (ou statistique). Un cas particulièrement
important est celui où le nuage se dispose suivant une forme allongée et exhibe une tendance
sensiblement linéaire. C’est à ce cas de régression linéaire que nous allons nous attacher dans ce
chapitre.
(7.3)
Cette condition de linéarité n’est pas aussi restrictive qu’il pourrait paraître : une transformation
mathématique appropriée permettra toujours de passer d’une ligne de régression d’équation
quelconque à une droite de régression. Si la tendance est, par exemple, de la forme y = b xa , il
suffira d’effectuer les changements de variable y ' = logHyL et x ' = logHxL pour retrouver une
relation linéaire : logHyL = a logHxL + logHbL.
(7.4)
Cette quantité S s’écrit en fonction de a et b : S = ⁄ni=1 Hyi - a xi - bL2 . Elle est minimale si les
dérivées partielles par rapport à a et b sont nulles :
!S
ÅÅÅÅÅÅÅÅ = -2 ⁄ni=1 xi Hyi - a xi - bL = -2 ⁄ni=1 xi ei = 0 (1)
coordonnées Hx
êê, êêyL, puisque son équation devient :
ce qui signifie que la droite des moindres carrés passe par le point moyen du nuage, de
On peut noter que : ÅÅÅÅ1n ⁄ni=1 Hxi - êêx L Hyi - êêyL est la covariance empirique de X et Y , et que :
ÅÅÅÅ1n ⁄ni=1 Hxi - êêx L2 est la variance empirique de X . Par conséquent, l’expression de a peut s’écrire :
sHX ,Y L
s2 HX L
a = ÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅ
Il représente donc la part relative de la variabilité totale de Y qui est expliquée par X :
SCE = r2 SCT
Et, symétriquement, H1 - r2 L représente la part résiduelle :
SCR = H1 - r2 L SCT (7)
En explicitant SCE et SCT puis a, on peut écrire :
a2 ⁄n Hx -x
êêL2 @⁄n Hx -x
êêL Hy -y
êêLD2
s HX ,Y L
Hy -y s2 HX L s2 HY L
ÅÅÅÅÅÅÅÅêêÅÅÅÅL2ÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
Hx -x êêL2 nÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
Hy -y L2
⁄i=1 i ⁄i=1 i ⁄i=1 i
2
r2 = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
n
i=1 i
n
i=1 i i
êêÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅÅ .
de telle façon que, si X et Y varient dans le même sens, r est positif ; sinon, il est négatif.
Il résulte de la relation (7) que le coefficient de corrélation est toujours compris entre -1 et 1,
puisqu’une somme de carrés est nécessairement positive.
Le coefficient de corrélation présente les valeurs remarquables suivantes :
- si » r » = 1 , il y a une relation fonctionnelle linéaire entre X et Y ;
- si r = 0, Y est indépendante de X : la covariance est nulle et la droite de régression est
horizontale.
- la liaison entre X et Y est d’autant plus intime que » r » est voisin de 1, et d’autant plus faible
que » r » est voisin de 0 .
(7.5)
Chapitre 7 : La régression linéaire 111
(7.6)
Les quantités !i sont des variables aléatoires avec les propriétés suivantes :
- elles sont centrées : E H!i L = 0,
- elles ont même variance : E H!i 2 L = s2 ,
- elles sont indépendantes : EH !i ! j L = 0 si i " j .
Pour une valeur donnée xi , on a :
E @Y Hxi LD = a xi + b.
La ligne de régression est donc la droite d’équation y = a x + b. La dispersion autour de cette
droite correspond à un écart-type s : elle est indépendante de X .
Rappelons que nous avions écrit, à partir de la droite des moindres carrés que :
yi = a xi + b + ei
2.2. Propriétés de a et b
Conformément au modèle adopté, a est à considérer comme une réalisation de la variable
aléatoire :
⁄n Hx -xêêL HY -Y L
êêê
⁄n Hx -x êêL2ÅÅÅÅÅÅÅÅÅ
A = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1 i
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i
i=1 i
x HA - aL + êê
B = b - êê !
On en déduit tout d’abord les espérances mathématiques de A et B :
⁄n Hx -x
êêL EH! L
Hx -x L2
⁄i=1 i
EHAL = a + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1 i
n ÅÅÅÅÅÅÅÅêê
ÅÅÅÅÅÅÅÅÅiÅÅÅ = a
êêL = b
EHBL = b - êêx EHA - aL + EH!
On peut calculer ensuite les variances de A et B :
s2 HAL = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
⁄n Hx -x
êê2 L s2 H! L
@⁄i=1 Hxi -x L D Hx -x
⁄i=1 êêL2ÅÅÅÅ
2
s
i=1 i
n
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
êê 2 ÅÅÅÅ
2 ÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i
n ÅÅÅÅÅÅÅÅ
êê
êê, AL = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
Hx -x êêL2ÅÅÅÅ + ÅÅÅÅnÅÅÅÅ
⁄i=1
x 2 s2 s2
n ÅÅÅÅÅÅÅÅ
i
puisque la covariance de êê
! et A est nulle :
ÅÅÅÅÅÅÅÅÅÅÅÅiÅ F = ÅÅÅÅ1n ‚
⁄n Hx -x
êêL ! ⁄n Hx -x
êêL EH! ! L
n ‚
êê, AL = EB ÅÅÅÅ1 n n
⁄n Hx -xêêL2 ⁄n Hx -x êêL2ÅÅÅÅÅÅÅÅÅÅ = 0
sH! ! j ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1 i
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1 i i j
On constate ainsi que A et B sont des estimateurs de a et b : sans biais HEHAL = a, EHBL = bL
i
2.3. Estimation de s2
Montrons maintenant que :
Chapitre 7 : La régression linéaire 113
SCR ⁄n e 2 H1-r2 L ⁄n Hy -y
êêL2
s*2 = ÅÅÅÅÅÅÅÅ
n-2ÅÅÅÅ = ÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅÅ = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1 i
n-2 n-2 ÅÅÅÅÅÅÅÅÅ
i=1 i
On en déduit que :
EH⁄ni=1 ei 2 L = Hn - 1L s2 - s2 - 0 = Hn - 2L s2 ,
et finalement :
EHs*2 L = s2
3. La prévision statistique
3.1. Objectifs
Dans une entreprise, on peut distinguer trois fonctions essentielles que nous allons brièvement
illustrer par des exemples.
Décision : les performances d’un matériel dépendent de son âge. Au-dessous d’un certain seuil
de performance, il convient de le réformer. Etant donné l’âge d’un matériel, il faudra décider de sa
réforme ou de son maintien en activité.
Prévision : la consommation en matière première (ou en énergie) dépend de la quantité produite.
Visant, pour une période future, une certaine production, quel stock de matière première faut-il
prévoir ?
Contrôle : dans le même contexte, une certaine production ayant été assurée pour une certaine
consommation, cette dernière est-elle « normale », faible, élevée ?
Ces trois problèmes se formulent finalement de la même façon. Pour une valeur donnée de X ,
quelle valeur attribuer à Y , et avec quelle précision ? D’un point de vue pratique, c’est l’objectif
principal de ce qui suit.
(7.7)
114 Chapitre 7 : La régression linéaire
Faisons l’hypothèse qu’il n’y a pas de liaison entre les variables, c’est-à-dire que a = 0. Il en
A
découle que A suit une loi de moyenne nulle, donc que la quantité ÅÅÅÅÅÅÅÅ ÅÅÅÅ suit une loi normale
sHAL
centrée réduite.
Par suite, si on estime s2 par :
H1-r2 L ⁄n Hy -êêyL2
s*2 = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1
n-2
i
ÅÅÅÅÅÅÅÅÅ
la quantité :
"################ ########
A
ÅÅÅÅêêÅÅÅÅ2#ÅÅ
s* í ⁄i=1 Hxi -x L
T = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
n
"################ ########
a
ÅÅÅÅêêÅÅÅÅ2#ÅÅ
s* í ⁄i=1 Hxi -x L
t = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
n
s2 HBL = J ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ n Ns .
êê2
⁄i=1 Hx -x êêL2ÅÅÅ + ÅÅÅÅ
x 1 2
n ÅÅÅÅÅÅÅÅ
i
de l’intervalle de confiance de Y HxL, alors que dans le premier cas il s’agit de l’intervalle de
deux problèmes, dont les applications sont nombreuses et importantes : il s’agit dans le second cas
confiance de E @Y HxLD.
Y * HxL-yHxL
s@Y * HxLD
ÅÅÅÅÅÅÅÅÅ suit une loi normale réduite. Et en estimant s par s* , le quotient :
La quantité ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
Y HxL-yHxL
*
T = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅÅÅÅÅ
s* $%%%%%%%%%%%%%%%%
Hx- xL
ÅÅÅÅÅÅÅÅ%%%%%%%%%1n%%%
êê 2
⁄n Hx -xêêL2
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ ÅÅÅÅ + ÅÅÅÅ
i
suit une loi de Student-Fisher à Hn - 2L degrés de liberté. Cette propriété permet de trouver un
i=1
Lorsque x varie, les limites ya HxL décrivent une hyperbole. La droite de régression inconnue
yHxL = a x + b se situe dans la zone comprise entre les deux branches de cette hyperbole.
(7.8)
faire des prévisions sur l’ordonnée yn+1 d’un Hn + 1L ème point d’abcisse xn+1 donnée. Cela
Un échantillon de n points a permis de déterminer les estimations a, b et s* . Nous cherchons à
Les deux quantités !n+1 et Y * Hxn+1 L sont indépendantes puisque la seconde ne fait intervenir que
les n premières observations, alors que la première concerne la Hn + 1L ème observation. Et, par
conséquent, les variances s’ajoutent :
suit une loi de Student à Hn - 2L degrés de liberté, ce qui permet de trouver l’intervalle de
i=1 i
confiance cherché.
On remarque, et c’est normal, que plus xn+1 est éloigné de êêx , plus cet intervalle est grand. Il
serait, de toute façon, illusoire et dangereux de prétendre faire des prévisions de Y HxL pour des
valeurs de x qui se trouveraient en dehors de l’intervalle de variation des données expérimentales
ayant permis de calculer les relations sur lesquelles reposent ces prévisions.
en notant que, si xn+1 n’est pas trop éloigné de êêx , la quantité Hxn+1 - êê x L2 est généralement
En fait, on simplifie le plus souvent l’expression de l’intervalle de confiance d’une observation
négligeable devant la quantité ⁄ni=1 Hxi - êêx L2 , et en admettant que n est suffisamment grand pour
que l’on puisse négliger ÅÅÅÅ1n devant 1.
Dans ces conditions, la plage de confiance des observations, au risque !, est comprise entre les
deux droites parallèles :
y = a x + b # taê2 s*
(7.9)
Soit deux groupes d’individus, sur lesquels ont été mesurées les valeurs de deux variables Y et
X : n1 individus pour le premier groupe, et n2 pour le second.
118 Chapitre 7 : La régression linéaire
Groupe 1 Groupe 2
Y X Y X
y11 x11 y12 x12
ª ª ª ª
yi1 xi1 yi' 2 xi' 2
ª ª ª ª
yn1 1 xn1 1 yn2 2 xn2 2
Hx -xêêêêL2 ⁄i=1
2
s
a1 est une réalisation de la variable aléatoire A1 de moyenne a1 et de variance ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
n1 ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ .
1i 1
⁄n2 Hx -xêêêêL2
2
s
a2 est une réalisation de la variable aléatoire A2 de moyenne a2 et de variance ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ .
Sous l’hypothèse a1 = a2 = a la variable aléatoire HA1 - A2 L suit une loi normale de moyenne
i'=1 2 i' 2
nulle et de variance :
s2 HA1 - A2 L = s2 J ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
⁄n1 Hx -xêêêêL2
1
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ N
⁄n2 Hx -xêêêêL2
1
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
i=1 1i 1 i'=1 2 i' 2
A1 -A2
T = ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
s* $%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
Hx -xêêêêL2
n 2%%%%%%%% %%%%%%%%
Hx -xêêêêL2
ÅÅÅÅÅÅÅÅ%Å%%Å%
⁄i=1 ⁄i'=1
1 1
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
n1 ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ + ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
ÅÅÅÅÅÅÅÅ
1i 1 2 i' 2
suit une loi de Student à Hn1 + n2 - 4L degrés de liberté, ce qui permet de tester l’égalité des
pentes.
suit une loi de Student à Hn1 + n2 - 4L degrés de liberté, ce qui permet de tester l’égalité des
1i 1 2 i' 2
ordonnées à l’origine.
Chapitre 7 : La régression linéaire 121
Exercices du chapitre 7
Exercice 1
On a relevé pour chacune des années t de 1920 à 1938, numérotées de 1 à 19, la température
moyenne x des mois d’été (en degrés centigrades) et la mortalité infantile y (nombre de décès
d'enfants de moins d’un an pour 1000 naissances vivantes).
t 1 2 3 4 5 6 7 8 9 10
x 15.9 18.8 15.4 18 14.6 16.2 17.9 16.5 18.1 19.8
y 98 116 87 96 85 89 97 83 91 95
t 11 12 13 14 15 16 17 18 19
... / ... x 17.2 15.9 19 19.2 19 18.31 17.1 18.2 17.9
y 77 76 77 75 69 69 67 65 65
Après examen de ces chiffres et des graphiques auxquels ils peuvent donner lieu, indiquer les
problèmes statistiques qu’ils vous paraissent poser et les calculs à faire pour les traiter.
Exercice 2
Le tableau ci-après donne les résultats d’un certain nombre de déterminations de la distance
nécessaire (y en mètres) à l’arrêt par freinage d’une automobile lancée à différentes vitesses (x en
km/h). Une étude graphique montre que la courbe représentant y en fonction de x est
manifestement concave vers les y positifs, mais que si l’on utilise x2 au lieu de x, la liaison
apparaît sensiblement linéaire. Peut-on justifier ce fait par une loi physique ?
Admettant la validité de ce type de liaison entre y et x2 , on suppose de plus que la vitesse x peut
être déterminée avec une grande précision et que les écarts constatés sont dûs à des fluctuations
aléatoires de y autour d’une vraie valeur correspondant à une liaison linéaire représentée par l’
équation y = a x2 + b.
Vitesse x 33 49 65 33 79 49 93
Distance y 5.3 14.45 20.26 6.5 38.45 11.23 50.42
x2 1089 2401 4225 1089 6241 2401 8649
c) Considérant le cas d’une voiture dont la vitesse est de 85 km/h, estimer la valeur moyenne
correspondante de y. En donner une limite supérieure au seuil de confiance 99%.
d) On suppose que pour une voiture se déplaçant à 85 km/h, on observe une distance de freinage
y = 55 mètres. Cette valeur peut-elle être considérée comme étant, à des fluctuations aléatoires
admissibles près, d’accord avec l’équation d’estimation trouvée ?
Exercice 3
On a déterminé sur une série de 18 coulées Thomas la température y du bain d’acier liquide à la
fin de l’opération (à l’aide d’un pyromètre à immersion) et la température x du centre de la flamme
(à l’aide d’un pyromètre à flamme) juste avant le rabattement du convertisseur. Le tableau
ci-dessous donne les résultats obtenus. Les températures sont exprimées en degrés centigrades.
Bain y 1610 1590 1600 1600 1593 1570 1608 1580
Flamme x 1504 1490 1505 1495 1490 1475 1508 1480
Bain y 1580 1592 1608 1612 1606 1595 1590 1597 1618
... / ...
Flamme x 1480 1482 1510 1520 1510 1492 1485 1495 1515
Exercice 4
Les données ci-dessous sont relatives à des mesures de la limite élastique y et de la résistance à
la traction x en MPa d’alliages d’or destinés à des prothèses dentaires.
x 1148 1638 1678 1292 1422 1285 1152 1357 867 1158 1082 907
y 724 1293 1296 925 1078 948 893 1077 550 870 669 517
... / ...
x 752 1115 1307 1528 1357 1405 1127 1073 1308 812 1260 1008 875
y 495 692 1014 1282 1007 978 849 670 953 497 798 657 580
Exercice 5
Les données ci-dessous sont relatives à l’étalonnage d’une méthode gravimétrique pour le
dosage de la chaux en présence de magnésium. La variable en x est la teneur vraie et la variable en
y est la teneur mesurée (en mg).
Vraie x 20.0 22.5 25.0 28.5 31.0 35.5 33.5 37.0 38.0 40.0
Mesurée y 19.8 22.8 24.5 27.3 31.0 35.0 35.1 37.1 38.5 39.0
Exercice 6
L’étude d’une méthode de dosage d’un élément dans des aciers a montré que, pour des
échantillons de poids différents d’un même produit, les poids y de l’élément à doser variaient bien
linéairement avec le poids x de l’échantillon, mais que la droite obtenue ne passait pas par l'origine.
Afin de vérifier l’hypothèse selon laquelle la solution acide utilisée en quantité fixe pour attaquer
les échantillons contiendrait elle-même une certaine quantité de l'élément à doser, on s'est proposé
de comparer les ordonnées à l’origine des droite de régression de y sur x obtenues pour deux aciers
différents.
On a utilisé pour chacun des deux aciers 5 échantillons de poids équidistants, les mêmes pour les
deux aciers soit 1, 2, 3, 4, 5. Les résultats obtenus sont les suivants :
124 Chapitre 7 : La régression linéaire
x1 = x2 = 3 n1 = n2 = 5
a1 = 24.21 b1 = 12.11 s1 *2 = 9.637
a2 = 8.82 b2 = 9.58 s2 *2 = 4.209
a) Comparer les variances résiduelles
b) Peut-on considérer que les pentes sont statistiquement égales ?
c) Peut-on considérer que les ordonnées à l’origine sont statistiquement égales ?
Exercice 7
La figure suivante indique, pour les 21 régions françaises de province et de métropole, le PIB HyL
par région en fonction du nombre d'emplois HxL dans la haute technologie, pour l'année 2000
(source : INSEE Nord-Pas-de-Calais). Le nuage de points, de forme allongée, suggère l'existence
d'une relation linéaire (figurée par la droite des moindres carrées) entre ces deux variables.
⁄x ⁄y ⁄ x2 ⁄ y2 ⁄xy
431200 992600 15078020000 64038160000 29144300000