0% ont trouvé ce document utile (0 vote)
36 vues37 pages

Régression Linéaire Simplifiée

Transféré par

anaiz.lugo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
36 vues37 pages

Régression Linéaire Simplifiée

Transféré par

anaiz.lugo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module 9 - Régression linéaire simple

MQT-1102 Probabilités et statistiques

Julien Miron
Département d’opérations et systèmes de décision
Introduction

2 / 37
But d’une analyse de régression
Quels effets les variables explicatives 𝑋1 , 𝑋2 , 𝑋3 , ... ont-elles sur la variable réponse 𝑌 ?

• Quel est l’effet de la température sur la durée de vie de la peinture sur l’asphalte ?

• Quel est l’effet d’un hiver très froid sur le niveau des réservoirs d’eau d’une ville en
été ?

• Quels sont les effets des heures de sommeil, de sport et d’étude sur la note moyenne
d’un étudiant ?

3 / 37
Objectifs plus précis

Étudier les relations entre des variables en se basant sur des données.
• Prévision : Étant donné son âge, son poids, fumeur/non fumeur, combien d’années un individu devrait-il
survivre ?
• Sélection de variables : Parmi la température, l’ensoleillement, la pluie reçue, l’altitude, le trafic, quelles
variables ont une influence significative sur la vitesse de l’orniérage des routes ?
• Spécification de modèle : Comment la durée de vie de transformateurs électriques varie-t-elle en
fonction de leur grosseur ?
• Estimation de paramètres : La luminosité en fonction de la distance des étoiles d’une certaine galaxie
est de la forme 𝐿 = 𝐾1 + 𝐾2 𝑑 + 𝜎𝜀, où 𝐾1 , 𝐾2 et 𝜎 sont des paramètres inconnus à être estimés à partir
d’observations.

4 / 37
Modélisation

Exprimer la valeur de 𝑌 en fonction des valeurs de 𝑋1 , … , 𝑋𝑘 :

𝑌 = 𝑓(𝑋1 , … , 𝑋𝑘 ) + fluctuation aléatoire

variable réponse variables explicatives


variable dépendante variables indépendantes
variable endogène variables exogènes
issue facteurs
covariables

5 / 37
Exemple d’un modèle à une variable

𝑌 = 𝑓(𝑋) + fluctuation aléatoire

deux hommes de 30 ans de


masse d’un taille de l’homme même taille peuvent avoir une
homme de (cm) masse différente
30 ans (kg)
(variation de la masse non ex-
(explique une par- pliquée par la taille)
tie de la masse)

6 / 37
Modèle linéaire

Un modèle de régression linéaire simple représente 𝑌 comme une fonction linéaire


d’un paramètre :
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝐸,

• 𝑌 : variable réponse (dépendante)


• 𝑋 : variable explicative (indépendante)
• 𝛽0 , 𝛽1 : paramètres de valeur inconnue à estimer à l’aide d’observations.
• 𝐸 : erreur aléatoire

7 / 37
La régression linéaire simple

8 / 37
Modèle de régression linéaire simple (RLS)

Une seule variable explicative 𝑋 , liée à 𝑌 par une droite.


𝑛 paires d’observations indépendantes (𝑋1 , 𝑌1 ), … , (𝑋𝑛 , 𝑌𝑛 ), réparties autour
d’une droite imaginaire.

𝑌𝑖 = 𝛽 0 + 𝛽 1 𝑋𝑖 + 𝐸 𝑖
(𝑖 = 1, … , 𝑛)

Postulats :
𝑌𝑖 ∼ 𝑁 (𝛽0 + 𝛽1 𝑋𝑖 , 𝜎2 ) in-
dép.
équivalent à
𝐸𝑖 ∼ 𝑁 (0, 𝜎2 ) indép.

9 / 37
Éléments du modèle de RLS

10 / 37
Interprétation des paramètres 𝛽0 et 𝛽1

• 𝛽1 : Si on augmente 𝑋 d’une unité, alors la valeur moyenne de 𝑌 augmente de


𝛽1 unités.
• 𝛽1 > 0 : grands 𝑋 associés aux grands 𝑌 et vice-versa.
• 𝛽1 < 0 : petits 𝑋 associés aux grands 𝑌 .
• 𝛽0 : la valeur moyenne de 𝑌 quand 𝑋 = 0.
• Si 𝑋 = 0 est peu plausible en pratique, 𝛽0 peut prendre une valeur farfelue,
mais le modèle de régression linéaire simple reste adéquat pour les valeurs de
𝑋 près de celles observées.

11 / 37
Extrapolation dangereuse !

On ignore la forme de la relation entre 𝑋 et 𝑌 à l’extérieur de l’intervalle observé.

12 / 37
Estimation des paramètres 𝛽0 et 𝛽1
𝛽0 et 𝛽1 : paramètres de valeurs inconnues.
𝑏0 et 𝑏1 : estimateurs des paramètres, obtenus en minimisant la partie inexpliquée de 𝑌 (la
fluctuation aléatoire) :

𝑛 𝑛 𝑛
𝑆𝑆𝑟𝑒𝑠 = ∑ 𝑒2𝑖 = ∑(𝑌𝑖 − 𝑌𝑖̂ )2 = ∑(𝑌𝑖 − 𝑏0 − 𝑏1 𝑋𝑖 )2 ,
𝑖=1 𝑖=1 𝑖=1

• 𝑌𝑖̂ = 𝑏0 + 𝑏1 𝑋𝑖 est la 𝑖𝑒 valeur ajustée, ou valeur prédite


(la partie de 𝑌𝑖 expliquée par le modèle)

• 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖̂ est le 𝑖𝑒 résidu


(la partie de 𝑌𝑖 inexpliquée par le modèle).

13 / 37
Problème de minimisation

En annulant les dérivées de 𝑆𝑆𝑟𝑒𝑠 par rapport à 𝑏0 et 𝑏1 , on obtient

𝑆𝑋𝑌
𝑏1 =
𝑆𝑋𝑋
𝑏0 = 𝑌 − 𝑏 1 𝑋


𝑛 𝑛 2
𝑆𝑋𝑋 = ∑ (𝑋𝑖 − 𝑋)2 = (𝑛 − 1) 𝑠2𝑋 = ∑ 𝑋𝑖2 − 𝑛𝑋
𝑖=1 𝑖=1

𝑛 𝑛 𝑛
𝑆𝑋𝑌 = ∑ (𝑋𝑖 − 𝑋)(𝑌𝑖 − 𝑌 ) = ∑ (𝑋𝑖 − 𝑋)𝑌𝑖 = ∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 .
𝑖=1 𝑖=1 𝑖=1

14 / 37
Exemple 1 : Absorption d’oxygène chez
24 hommes qui courent 3,2 km
VOLUME MAX. TEMPS EN
SUJET D'O2 (Y) SECONDES (X)
1 42.33 918
2 53.10 805
3 42.08 892
4 50.06 962
5 42.45 968
6 42.46 907
7 47.82 770
8 49.92 743
9 36.23 1045
10 49.66 810
11 41.49 927
12 46.17 813
13 48.18 858
14 43.21 860
15 51.81 760
16 53.28 747
17 53.29 743
18 47.18 803
19 56.91 683
20 47.80 844
21 48.65 755
22 53.69 700
23 60.62 748
24 56.73 775

15 / 37
Exemple 1 : Estimation des paramètres
On a effectué les calculs suivants :
24
𝑥 = 826, 5 𝑠2𝑋 = 8593, 8 ∑ 𝑥𝑖 𝑦𝑖 = 952 885
𝑖=1
𝑦 = 48, 55 𝑠2𝑌 = 34, 1
Quelle est l’équation de la droite de régression estimée ?
𝑆𝑋𝑌
𝑏1 =
𝑆𝑋𝑋

𝑏0 = 𝑌 − 𝑏 1 𝑋

𝑌 ̂ = 𝑏 0 + 𝑏1 𝑋

16 / 37
QUIZ !
• Jacques a couru les 3,2 km en 10 secondes de plus que Marc, mais ils n’ont pas
mesuré leur 𝑉 𝑂2 𝑚𝑎𝑥. Quelle différence de 𝑉 𝑂2 𝑚𝑎𝑥 le modèle ajusté
prédit-il entre les deux hommes ?

• Vrai ou Faux : on peut dire que les hommes qui courent le 3,2 km en 0 seconde
ont un 𝑉 𝑂2 𝑚𝑎𝑥 moyen de 90,7.

17 / 37
Relation non significative entre 𝑌 et 𝑋

Si le postulat de linéarité est respecté, alors une pente nulle pour la droite de
régression (𝛽1 = 0) signifie qu’il n’y pas d’association entre les variables 𝑌 et 𝑋 .
Dans ce cas, la loi de 𝑌 ne change pas avec la valeur de 𝑋 (la valeur moyenne de 𝑌
est égale à 𝛽0 peu importe la valeur de 𝑋 .)

18 / 37
Tests sur la significativité de la relation linéaire

Il existe deux approches équivalentes pour tester :

𝐻0 ∶ 𝛽1 = 0 vs 𝐻1 ∶ 𝛽1 ≠ 0.

Il s’agit du test 𝐹 , basé sur l’analyse de la variance et du test 𝑡 sur 𝛽1 .


Dans ce cours, nous ne verrons que le test 𝑡.

19 / 37
Approche basée sur la loi 𝑡
On peut utiliser le fait que
𝑛 𝑛
𝑆𝑋𝑌 ∑ (𝑋𝑖 − 𝑋)𝑌𝑖 (𝑋𝑖 − 𝑋)
𝑏1 = = 𝑖=1
𝑛 = ∑ [ 𝑛 ] 𝑌𝑖
𝑆𝑋𝑋 ∑𝑖=1 (𝑋𝑖 − 𝑋)2 𝑖=1 ∑𝑖=1 (𝑋𝑖 − 𝑋)
2

est une combinaison linéaire des 𝑌𝑖 ⇒

𝜎2 𝑏 −𝛽
𝑏1 ∼ 𝑁 (𝛽1 , ) ⇔ 1 2 1 ∼ 𝑁 (0, 1)
𝑆𝑋𝑋 √ 𝑆𝜎
𝑋𝑋

Par contre, nous ne connaissons pas 𝜎2 . Il faut donc l’estimer.

20 / 37
Comme 𝜎2 est la variance des erreurs du modèle 𝐸𝑖 = 𝑌𝑖 = 𝛽0 − 𝛽1 𝑋𝑖 que nous
estimons par 𝑒𝑖 = 𝑦𝑖 = 𝑏0 − 𝑏1 𝑥𝑖 , nous utiliserons

𝑆𝑆𝑟𝑒𝑠
𝜎̂ 2 = 𝑀 𝑆𝑟𝑒𝑠 = .
𝑛−2
Nous en déduisons donc
𝑏1 − 𝛽 1
𝑇0 = ∼ 𝑡𝑛−2 .
√ 𝑀𝑆
𝑆
𝑟𝑒𝑠
𝑋𝑋

21 / 37
Intervalles de confiance et de prédiction

22 / 37
Estimateurs de 𝛽0 et 𝛽1

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝐸𝑖 , 𝐸𝑖 ∼ 𝑁 (0, 𝜎2 )

Paramètre Pente Ordonnée à l’origine


𝑆𝑋𝑌
Estimateur 𝑏1 = 𝑏0 = 𝑌 − 𝑏1 𝑋
𝑆𝑋𝑋

Espérance 𝛽1 𝛽0
2
𝜎2 𝜎2 𝜎2 𝑋
Variance +
𝑆𝑋𝑋 𝑛 𝑆𝑋𝑋
𝑏1 − 𝛽1 𝑏0 − 𝛽0
Stat. inférence ∼ 𝑡𝑛−2 ∼ 𝑡𝑛−2
2
𝑀 𝑆𝐸 √𝑀 𝑆𝐸 ( 𝑛1 + 𝑋
√ 𝑆𝑋𝑋 )
𝑆𝑋𝑋

23 / 37
Intervalle de confiance pour 𝛽1

On a que

𝑏1 − 𝛽 1
𝑃 (−𝑡𝛼/2;𝑛−2 ≤ ≤ 𝑡𝛼/2;𝑛−2 ) = 1 − 𝛼.
√𝑀 𝑆𝐸 /𝑆𝑋𝑋

En isolant 𝛽1 au centre, on obtient l’intervalle de confiance de niveau 1 − 𝛼 suivant


pour 𝛽1 :
𝑀 𝑆𝐸
𝑏1 ± 𝑡𝛼/2;𝑛−2 √ .
𝑆𝑋𝑋

24 / 37
Estimation de 𝐸(𝑌 |𝑋 = 𝑥0 )

• Pour un 𝑋 fixé à 𝑥0 , la valeur de 𝑌 tourne autour de 𝛽0 + 𝛽1 𝑥0 .

• On veut faire de l’inférence sur la valeur moyenne de 𝑌 à ce niveau 𝑋 = 𝑥0 ,


c’est-à-dire sur 𝐸(𝑌 |𝑋 = 𝑥0 ).

• Un estimateur sans biais de la vraie valeur moyenne 𝛽0 + 𝛽1 𝑥0 est

𝑌0̂ = 𝑏0 + 𝑏1 𝑥0 .

25 / 37
Intervalle de confiance pour la moyenne de 𝑌 en 𝑥0

On peut montrer que


1 (𝑥 − 𝑋)2
𝑉 (𝑌0̂ ) = 𝑉 (𝑏0 + 𝑏1 𝑥0 ) = 𝜎2 [ + 0 ]
𝑛 𝑆𝑋𝑋
et que
𝑌0̂ − (𝛽0 + 𝛽1 𝑥0 )
∼ 𝑡𝑛−2
(𝑥0 −𝑋)2
√𝑀 𝑆𝐸 [ 𝑛1 + 𝑆𝑋𝑋 ]

et donc un intervalle de confiance de niveau 1 − 𝛼 pour 𝐸(𝑌 |𝑋 = 𝑥0 ) est donné


par

1 (𝑥0 − 𝑋)2
𝑌0̂ ± 𝑡𝛼/2;𝑛−2 √𝑀 𝑆𝐸 [ + ].
𝑛 𝑆𝑋𝑋
26 / 37
Une question un peu différente

Au lieu d’estimer la valeur moyenne de 𝑌 en 𝑥0 , supposons qu’on veut prédire la


valeur d’une observation individuelle de 𝑌 pour un 𝑋 fixé.
Mathématiquement, on cherche à prédire la valeur de 𝛽0 + 𝛽1 𝑥0 + 𝐸0 .
L’estimateur ponctuel d’une observation individuelle est

𝑏0 + 𝑏1 𝑥0 + 0 = 𝑏0 + 𝑏1 𝑥0

(le même que pour la valeur moyenne de 𝑌 … mais sa variance sera plus grande.)

27 / 37
Intervalle de prévision de 𝑌 quand 𝑋 = 𝑥0

On peut montrer que

𝑌0̂ − (𝛽0 + 𝛽1 𝑥0 + 𝐸0 )
∼ 𝑡𝑛−2 ,
(𝑥0 −𝑋)2
√𝑀 𝑆𝐸 [ 𝑛1 + 𝑆𝑋𝑋 ] + 𝑀 𝑆𝐸

ce qui mène à l’intervalle de prévision pour 𝛽0 + 𝛽1 𝑥0 + 𝐸0

1 (𝑥0 − 𝑋)2
𝑌0̂ ± 𝑡𝛼/2;𝑛−2 √𝑀 𝑆𝐸 [1+ + ].
𝑛 𝑆𝑋𝑋

28 / 37
Exemple 3

(i) Calculons une prévision ponctuelle et un intervalle de confiance à 95% pour la valeur
moyenne de l’absorption maximale d’oxygène (𝑉 𝑂2 𝑚𝑎𝑥) chez les hommes qui
courent les 3,2 km en 15 minutes et 25 secondes ;

29 / 37
Exemple 3

(ii) Calculons une prévision ponctuelle et un intervalle de prévision à 95% pour le


𝑉 𝑂2 𝑚𝑎𝑥 d’un homme qui court 3,2 km en 15 min 25 s.

30 / 37
Exemple 3 (suite)

31 / 37
Exemple 3 (suite)

32 / 37
Qualité de l’ajustement

33 / 37
Coefficient de détermination
𝑛
• 𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦)̄ 2
𝑖=1
𝑛
• 𝑆𝑆𝑟𝑒𝑔 = ∑(𝑦𝑖̂ − 𝑦)̄ 2
𝑖=1
𝑛
• 𝑆𝑆𝑟𝑒𝑠 = ∑(𝑦𝑖 − 𝑦)̂ 2
𝑖=1
On pourrait montrer que 𝑆𝑆𝑇 = 𝑆𝑆𝑟𝑒𝑔 + 𝑆𝑆𝑟𝑒𝑠 .

𝑆𝑆𝑟𝑒𝑔
Par cette égalité, nous savons que 0 ≤ 𝑆𝑆𝑇 ≤ 1.

Si nous avons un ajustement parfait, 𝑆𝑆𝑟𝑒𝑠 =

Sinon
34 / 37
Coefficient de détermination

Le coefficient de détermination 𝑟2 mesure l’adéquation de la droite de régression.


𝑆𝑆
𝑟2 = 𝑆𝑆𝑟𝑒𝑔 .
𝑇

2
Il s’agit d’une estimation du carré de la corrélation entre 𝑋 et 𝑌 , 𝜌𝑋𝑌 .

Cette quantité mesure la proportion de variabilité de 𝑌 qui est expliquée par la


régression.

35 / 37
Exemple 4 sur le 𝑉 𝑂2 𝑚𝑎𝑥

Coefficient de détermination :

Coefficient de corrélation échantillonnal :

36 / 37
Bibliographie

Ce document est rédigé avec Beamer ainsi qu’une classe .cls fourni par Jérôme
Soucy. Les diapositives sont adaptées des diapositives créées par Thierry Duchesne
et Emmanuelle Reny-Nolin pour le cours STT-1900. Les graphiques proviennent de
ces mêmes diapositives.

Pour signaler une erreur dans ce document, veuillez écrire à l’adresse : [Link]@[Link].

37 / 37

Vous aimerez peut-être aussi