Module 9 - Régression linéaire simple
MQT-1102 Probabilités et statistiques
Julien Miron
Département d’opérations et systèmes de décision
Introduction
2 / 37
But d’une analyse de régression
Quels effets les variables explicatives 𝑋1 , 𝑋2 , 𝑋3 , ... ont-elles sur la variable réponse 𝑌 ?
• Quel est l’effet de la température sur la durée de vie de la peinture sur l’asphalte ?
• Quel est l’effet d’un hiver très froid sur le niveau des réservoirs d’eau d’une ville en
été ?
• Quels sont les effets des heures de sommeil, de sport et d’étude sur la note moyenne
d’un étudiant ?
3 / 37
Objectifs plus précis
Étudier les relations entre des variables en se basant sur des données.
• Prévision : Étant donné son âge, son poids, fumeur/non fumeur, combien d’années un individu devrait-il
survivre ?
• Sélection de variables : Parmi la température, l’ensoleillement, la pluie reçue, l’altitude, le trafic, quelles
variables ont une influence significative sur la vitesse de l’orniérage des routes ?
• Spécification de modèle : Comment la durée de vie de transformateurs électriques varie-t-elle en
fonction de leur grosseur ?
• Estimation de paramètres : La luminosité en fonction de la distance des étoiles d’une certaine galaxie
est de la forme 𝐿 = 𝐾1 + 𝐾2 𝑑 + 𝜎𝜀, où 𝐾1 , 𝐾2 et 𝜎 sont des paramètres inconnus à être estimés à partir
d’observations.
4 / 37
Modélisation
Exprimer la valeur de 𝑌 en fonction des valeurs de 𝑋1 , … , 𝑋𝑘 :
𝑌 = 𝑓(𝑋1 , … , 𝑋𝑘 ) + fluctuation aléatoire
variable réponse variables explicatives
variable dépendante variables indépendantes
variable endogène variables exogènes
issue facteurs
covariables
5 / 37
Exemple d’un modèle à une variable
𝑌 = 𝑓(𝑋) + fluctuation aléatoire
deux hommes de 30 ans de
masse d’un taille de l’homme même taille peuvent avoir une
homme de (cm) masse différente
30 ans (kg)
(variation de la masse non ex-
(explique une par- pliquée par la taille)
tie de la masse)
6 / 37
Modèle linéaire
Un modèle de régression linéaire simple représente 𝑌 comme une fonction linéaire
d’un paramètre :
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝐸,
• 𝑌 : variable réponse (dépendante)
• 𝑋 : variable explicative (indépendante)
• 𝛽0 , 𝛽1 : paramètres de valeur inconnue à estimer à l’aide d’observations.
• 𝐸 : erreur aléatoire
7 / 37
La régression linéaire simple
8 / 37
Modèle de régression linéaire simple (RLS)
Une seule variable explicative 𝑋 , liée à 𝑌 par une droite.
𝑛 paires d’observations indépendantes (𝑋1 , 𝑌1 ), … , (𝑋𝑛 , 𝑌𝑛 ), réparties autour
d’une droite imaginaire.
𝑌𝑖 = 𝛽 0 + 𝛽 1 𝑋𝑖 + 𝐸 𝑖
(𝑖 = 1, … , 𝑛)
Postulats :
𝑌𝑖 ∼ 𝑁 (𝛽0 + 𝛽1 𝑋𝑖 , 𝜎2 ) in-
dép.
équivalent à
𝐸𝑖 ∼ 𝑁 (0, 𝜎2 ) indép.
9 / 37
Éléments du modèle de RLS
10 / 37
Interprétation des paramètres 𝛽0 et 𝛽1
• 𝛽1 : Si on augmente 𝑋 d’une unité, alors la valeur moyenne de 𝑌 augmente de
𝛽1 unités.
• 𝛽1 > 0 : grands 𝑋 associés aux grands 𝑌 et vice-versa.
• 𝛽1 < 0 : petits 𝑋 associés aux grands 𝑌 .
• 𝛽0 : la valeur moyenne de 𝑌 quand 𝑋 = 0.
• Si 𝑋 = 0 est peu plausible en pratique, 𝛽0 peut prendre une valeur farfelue,
mais le modèle de régression linéaire simple reste adéquat pour les valeurs de
𝑋 près de celles observées.
11 / 37
Extrapolation dangereuse !
On ignore la forme de la relation entre 𝑋 et 𝑌 à l’extérieur de l’intervalle observé.
12 / 37
Estimation des paramètres 𝛽0 et 𝛽1
𝛽0 et 𝛽1 : paramètres de valeurs inconnues.
𝑏0 et 𝑏1 : estimateurs des paramètres, obtenus en minimisant la partie inexpliquée de 𝑌 (la
fluctuation aléatoire) :
𝑛 𝑛 𝑛
𝑆𝑆𝑟𝑒𝑠 = ∑ 𝑒2𝑖 = ∑(𝑌𝑖 − 𝑌𝑖̂ )2 = ∑(𝑌𝑖 − 𝑏0 − 𝑏1 𝑋𝑖 )2 ,
𝑖=1 𝑖=1 𝑖=1
où
• 𝑌𝑖̂ = 𝑏0 + 𝑏1 𝑋𝑖 est la 𝑖𝑒 valeur ajustée, ou valeur prédite
(la partie de 𝑌𝑖 expliquée par le modèle)
• 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖̂ est le 𝑖𝑒 résidu
(la partie de 𝑌𝑖 inexpliquée par le modèle).
13 / 37
Problème de minimisation
En annulant les dérivées de 𝑆𝑆𝑟𝑒𝑠 par rapport à 𝑏0 et 𝑏1 , on obtient
𝑆𝑋𝑌
𝑏1 =
𝑆𝑋𝑋
𝑏0 = 𝑌 − 𝑏 1 𝑋
où
𝑛 𝑛 2
𝑆𝑋𝑋 = ∑ (𝑋𝑖 − 𝑋)2 = (𝑛 − 1) 𝑠2𝑋 = ∑ 𝑋𝑖2 − 𝑛𝑋
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
𝑆𝑋𝑌 = ∑ (𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌 ) = ∑ (𝑋𝑖 − 𝑋)𝑌𝑖 = ∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 .
𝑖=1 𝑖=1 𝑖=1
14 / 37
Exemple 1 : Absorption d’oxygène chez
24 hommes qui courent 3,2 km
VOLUME MAX. TEMPS EN
SUJET D'O2 (Y) SECONDES (X)
1 42.33 918
2 53.10 805
3 42.08 892
4 50.06 962
5 42.45 968
6 42.46 907
7 47.82 770
8 49.92 743
9 36.23 1045
10 49.66 810
11 41.49 927
12 46.17 813
13 48.18 858
14 43.21 860
15 51.81 760
16 53.28 747
17 53.29 743
18 47.18 803
19 56.91 683
20 47.80 844
21 48.65 755
22 53.69 700
23 60.62 748
24 56.73 775
15 / 37
Exemple 1 : Estimation des paramètres
On a effectué les calculs suivants :
24
𝑥 = 826, 5 𝑠2𝑋 = 8593, 8 ∑ 𝑥𝑖 𝑦𝑖 = 952 885
𝑖=1
𝑦 = 48, 55 𝑠2𝑌 = 34, 1
Quelle est l’équation de la droite de régression estimée ?
𝑆𝑋𝑌
𝑏1 =
𝑆𝑋𝑋
𝑏0 = 𝑌 − 𝑏 1 𝑋
𝑌 ̂ = 𝑏 0 + 𝑏1 𝑋
16 / 37
QUIZ !
• Jacques a couru les 3,2 km en 10 secondes de plus que Marc, mais ils n’ont pas
mesuré leur 𝑉 𝑂2 𝑚𝑎𝑥. Quelle différence de 𝑉 𝑂2 𝑚𝑎𝑥 le modèle ajusté
prédit-il entre les deux hommes ?
• Vrai ou Faux : on peut dire que les hommes qui courent le 3,2 km en 0 seconde
ont un 𝑉 𝑂2 𝑚𝑎𝑥 moyen de 90,7.
17 / 37
Relation non significative entre 𝑌 et 𝑋
Si le postulat de linéarité est respecté, alors une pente nulle pour la droite de
régression (𝛽1 = 0) signifie qu’il n’y pas d’association entre les variables 𝑌 et 𝑋 .
Dans ce cas, la loi de 𝑌 ne change pas avec la valeur de 𝑋 (la valeur moyenne de 𝑌
est égale à 𝛽0 peu importe la valeur de 𝑋 .)
18 / 37
Tests sur la significativité de la relation linéaire
Il existe deux approches équivalentes pour tester :
𝐻0 ∶ 𝛽1 = 0 vs 𝐻1 ∶ 𝛽1 ≠ 0.
Il s’agit du test 𝐹 , basé sur l’analyse de la variance et du test 𝑡 sur 𝛽1 .
Dans ce cours, nous ne verrons que le test 𝑡.
19 / 37
Approche basée sur la loi 𝑡
On peut utiliser le fait que
𝑛 𝑛
𝑆𝑋𝑌 ∑ (𝑋𝑖 − 𝑋)𝑌𝑖 (𝑋𝑖 − 𝑋)
𝑏1 = = 𝑖=1
𝑛 = ∑ [ 𝑛 ] 𝑌𝑖
𝑆𝑋𝑋 ∑𝑖=1 (𝑋𝑖 − 𝑋)2 𝑖=1 ∑𝑖=1 (𝑋𝑖 − 𝑋)
2
est une combinaison linéaire des 𝑌𝑖 ⇒
𝜎2 𝑏 −𝛽
𝑏1 ∼ 𝑁 (𝛽1 , ) ⇔ 1 2 1 ∼ 𝑁 (0, 1)
𝑆𝑋𝑋 √ 𝑆𝜎
𝑋𝑋
Par contre, nous ne connaissons pas 𝜎2 . Il faut donc l’estimer.
20 / 37
Comme 𝜎2 est la variance des erreurs du modèle 𝐸𝑖 = 𝑌𝑖 = 𝛽0 − 𝛽1 𝑋𝑖 que nous
estimons par 𝑒𝑖 = 𝑦𝑖 = 𝑏0 − 𝑏1 𝑥𝑖 , nous utiliserons
𝑆𝑆𝑟𝑒𝑠
𝜎̂ 2 = 𝑀 𝑆𝑟𝑒𝑠 = .
𝑛−2
Nous en déduisons donc
𝑏1 − 𝛽 1
𝑇0 = ∼ 𝑡𝑛−2 .
√ 𝑀𝑆
𝑆
𝑟𝑒𝑠
𝑋𝑋
21 / 37
Intervalles de confiance et de prédiction
22 / 37
Estimateurs de 𝛽0 et 𝛽1
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝐸𝑖 , 𝐸𝑖 ∼ 𝑁 (0, 𝜎2 )
Paramètre Pente Ordonnée à l’origine
𝑆𝑋𝑌
Estimateur 𝑏1 = 𝑏0 = 𝑌 − 𝑏1 𝑋
𝑆𝑋𝑋
Espérance 𝛽1 𝛽0
2
𝜎2 𝜎2 𝜎2 𝑋
Variance +
𝑆𝑋𝑋 𝑛 𝑆𝑋𝑋
𝑏1 − 𝛽1 𝑏0 − 𝛽0
Stat. inférence ∼ 𝑡𝑛−2 ∼ 𝑡𝑛−2
2
𝑀 𝑆𝐸 √𝑀 𝑆𝐸 ( 𝑛1 + 𝑋
√ 𝑆𝑋𝑋 )
𝑆𝑋𝑋
23 / 37
Intervalle de confiance pour 𝛽1
On a que
𝑏1 − 𝛽 1
𝑃 (−𝑡𝛼/2;𝑛−2 ≤ ≤ 𝑡𝛼/2;𝑛−2 ) = 1 − 𝛼.
√𝑀 𝑆𝐸 /𝑆𝑋𝑋
En isolant 𝛽1 au centre, on obtient l’intervalle de confiance de niveau 1 − 𝛼 suivant
pour 𝛽1 :
𝑀 𝑆𝐸
𝑏1 ± 𝑡𝛼/2;𝑛−2 √ .
𝑆𝑋𝑋
24 / 37
Estimation de 𝐸(𝑌 |𝑋 = 𝑥0 )
• Pour un 𝑋 fixé à 𝑥0 , la valeur de 𝑌 tourne autour de 𝛽0 + 𝛽1 𝑥0 .
• On veut faire de l’inférence sur la valeur moyenne de 𝑌 à ce niveau 𝑋 = 𝑥0 ,
c’est-à-dire sur 𝐸(𝑌 |𝑋 = 𝑥0 ).
• Un estimateur sans biais de la vraie valeur moyenne 𝛽0 + 𝛽1 𝑥0 est
𝑌0̂ = 𝑏0 + 𝑏1 𝑥0 .
25 / 37
Intervalle de confiance pour la moyenne de 𝑌 en 𝑥0
On peut montrer que
1 (𝑥 − 𝑋)2
𝑉 (𝑌0̂ ) = 𝑉 (𝑏0 + 𝑏1 𝑥0 ) = 𝜎2 [ + 0 ]
𝑛 𝑆𝑋𝑋
et que
𝑌0̂ − (𝛽0 + 𝛽1 𝑥0 )
∼ 𝑡𝑛−2
(𝑥0 −𝑋)2
√𝑀 𝑆𝐸 [ 𝑛1 + 𝑆𝑋𝑋 ]
et donc un intervalle de confiance de niveau 1 − 𝛼 pour 𝐸(𝑌 |𝑋 = 𝑥0 ) est donné
par
1 (𝑥0 − 𝑋)2
𝑌0̂ ± 𝑡𝛼/2;𝑛−2 √𝑀 𝑆𝐸 [ + ].
𝑛 𝑆𝑋𝑋
26 / 37
Une question un peu différente
Au lieu d’estimer la valeur moyenne de 𝑌 en 𝑥0 , supposons qu’on veut prédire la
valeur d’une observation individuelle de 𝑌 pour un 𝑋 fixé.
Mathématiquement, on cherche à prédire la valeur de 𝛽0 + 𝛽1 𝑥0 + 𝐸0 .
L’estimateur ponctuel d’une observation individuelle est
𝑏0 + 𝑏1 𝑥0 + 0 = 𝑏0 + 𝑏1 𝑥0
(le même que pour la valeur moyenne de 𝑌 … mais sa variance sera plus grande.)
27 / 37
Intervalle de prévision de 𝑌 quand 𝑋 = 𝑥0
On peut montrer que
𝑌0̂ − (𝛽0 + 𝛽1 𝑥0 + 𝐸0 )
∼ 𝑡𝑛−2 ,
(𝑥0 −𝑋)2
√𝑀 𝑆𝐸 [ 𝑛1 + 𝑆𝑋𝑋 ] + 𝑀 𝑆𝐸
ce qui mène à l’intervalle de prévision pour 𝛽0 + 𝛽1 𝑥0 + 𝐸0
1 (𝑥0 − 𝑋)2
𝑌0̂ ± 𝑡𝛼/2;𝑛−2 √𝑀 𝑆𝐸 [1+ + ].
𝑛 𝑆𝑋𝑋
28 / 37
Exemple 3
(i) Calculons une prévision ponctuelle et un intervalle de confiance à 95% pour la valeur
moyenne de l’absorption maximale d’oxygène (𝑉 𝑂2 𝑚𝑎𝑥) chez les hommes qui
courent les 3,2 km en 15 minutes et 25 secondes ;
29 / 37
Exemple 3
(ii) Calculons une prévision ponctuelle et un intervalle de prévision à 95% pour le
𝑉 𝑂2 𝑚𝑎𝑥 d’un homme qui court 3,2 km en 15 min 25 s.
30 / 37
Exemple 3 (suite)
31 / 37
Exemple 3 (suite)
32 / 37
Qualité de l’ajustement
33 / 37
Coefficient de détermination
𝑛
• 𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦)̄ 2
𝑖=1
𝑛
• 𝑆𝑆𝑟𝑒𝑔 = ∑(𝑦𝑖̂ − 𝑦)̄ 2
𝑖=1
𝑛
• 𝑆𝑆𝑟𝑒𝑠 = ∑(𝑦𝑖 − 𝑦)̂ 2
𝑖=1
On pourrait montrer que 𝑆𝑆𝑇 = 𝑆𝑆𝑟𝑒𝑔 + 𝑆𝑆𝑟𝑒𝑠 .
𝑆𝑆𝑟𝑒𝑔
Par cette égalité, nous savons que 0 ≤ 𝑆𝑆𝑇 ≤ 1.
Si nous avons un ajustement parfait, 𝑆𝑆𝑟𝑒𝑠 =
Sinon
34 / 37
Coefficient de détermination
Le coefficient de détermination 𝑟2 mesure l’adéquation de la droite de régression.
𝑆𝑆
𝑟2 = 𝑆𝑆𝑟𝑒𝑔 .
𝑇
2
Il s’agit d’une estimation du carré de la corrélation entre 𝑋 et 𝑌 , 𝜌𝑋𝑌 .
Cette quantité mesure la proportion de variabilité de 𝑌 qui est expliquée par la
régression.
35 / 37
Exemple 4 sur le 𝑉 𝑂2 𝑚𝑎𝑥
Coefficient de détermination :
Coefficient de corrélation échantillonnal :
36 / 37
Bibliographie
Ce document est rédigé avec Beamer ainsi qu’une classe .cls fourni par Jérôme
Soucy. Les diapositives sont adaptées des diapositives créées par Thierry Duchesne
et Emmanuelle Reny-Nolin pour le cours STT-1900. Les graphiques proviennent de
ces mêmes diapositives.
Pour signaler une erreur dans ce document, veuillez écrire à l’adresse : [Link]@[Link].
37 / 37