Chapitre III: Régression linéaire multiple
Module: Économétrie des séries temporelles
Licence en Sciences des Données (S5)
Pr. Sidi Mohamed LALAOUI BEN CHERIF1
[email protected] 1 Institut AL Khwarizmi
Université Mohammed VI Polytechnique
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 1 / 39
Outline
1 Modèle de régression linéaire multiple
2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
3 Test d’hypothèses et intervalle de confiance pour les paramètres βj
4 Prévision d’une valeur ultérieure
5 Sélection de variables
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 2 / 39
Modèle de régression linéaire multiple
Sommaire
1 Modèle de régression linéaire multiple
1. 1 Hypothèses additionnelles
2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
3 Test d’hypothèses et intervalle de confiance pour les paramètres βj
4 Prévision d’une valeur ultérieure
5 Sélection de variables
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 3 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
y est la variable à expliquer (à valeurs dans R ) ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
ε est le terme d’erreur aléatoire du modèle ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
ε est le terme d’erreur aléatoire du modèle ;
β0 , β1 , . . . , βp sont les paramètres à estimer.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
ε est le terme d’erreur aléatoire du modèle ;
β0 , β1 , . . . , βp sont les paramètres à estimer.
La désignation "multiple" fait référence au fait qu’il y a plusieurs
variables explicatives xj pour expliquer y.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Le modèle de régression linéaire multiple est une généralisation du
modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :
y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)
où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
ε est le terme d’erreur aléatoire du modèle ;
β0 , β1 , . . . , βp sont les paramètres à estimer.
La désignation "multiple" fait référence au fait qu’il y a plusieurs
variables explicatives xj pour expliquer y.
La désignation "linéaire" correspond au fait que le modèle (1) est
linéaire.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Pour n observations, on peut écrire le modèle de régression
linéaire multiple sous la forme :
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)
p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1
Dans ce chapitre, on suppose que :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Pour n observations, on peut écrire le modèle de régression
linéaire multiple sous la forme :
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)
p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1
Dans ce chapitre, on suppose que :
xij est observée et non aléatoire,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Pour n observations, on peut écrire le modèle de régression
linéaire multiple sous la forme :
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)
p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1
Dans ce chapitre, on suppose que :
xij est observée et non aléatoire,
yi est observée et aléatoire,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
Pour n observations, on peut écrire le modèle de régression
linéaire multiple sous la forme :
yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)
p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1
Dans ce chapitre, on suppose que :
xij est observée et non aléatoire,
yi est observée et aléatoire,
εi est une variable aléatoire, non observée.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
On fait les trois hypothèses additionnelles suivantes :
(H1) : Erreurs centrées
E [εi ] = 0, ∀i = 1, . . . , n (4)
ou de manière équivalente :
p
E [yi ] = β0 + ∑ βj xij , ∀i = 1, . . . , n
j=1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 6 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
On fait les trois hypothèses additionnelles suivantes :
(H1) : Erreurs centrées
E [εi ] = 0, ∀i = 1, . . . , n (4)
ou de manière équivalente :
p
E [yi ] = β0 + ∑ βj xij , ∀i = 1, . . . , n
j=1
L’hypothèse (H1) indique que les erreurs sont centrées ce qui
implique que yi dépend seulement de xij et que les autres sources
de variations de yi sont aléatoires.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 6 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H2) : Homoscédasticité
V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H2) : Homoscédasticité
V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n
On parle d’hypothèse d’homoscédasticité (' homogénéité des
variances ) ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H2) : Homoscédasticité
V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n
On parle d’hypothèse d’homoscédasticité (' homogénéité des
variances ) ;
Cette variance est supposée constante et indépendante de xi ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H2) : Homoscédasticité
V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n
On parle d’hypothèse d’homoscédasticité (' homogénéité des
variances ) ;
Cette variance est supposée constante et indépendante de xi ;
Cette variance σ 2 est un paramètre du modèle qu’il faudra
estimer.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H3) : Termes d’erreurs non corrélés
Cov (εi , εi0 ) = 0, ∀i 6= i0 (6)
ou de manière équivalente :
Cov (yi , yi0 ) = 0, ∀i 6= i0
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 8 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H3) : Termes d’erreurs non corrélés
Cov (εi , εi0 ) = 0, ∀i 6= i0 (6)
ou de manière équivalente :
Cov (yi , yi0 ) = 0, ∀i 6= i0
L’hypothèse (H3) indique que les termes d’erreur εi sont non
corrélés ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 8 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
(H3) : Termes d’erreurs non corrélés
Cov (εi , εi0 ) = 0, ∀i 6= i0 (6)
ou de manière équivalente :
Cov (yi , yi0 ) = 0, ∀i 6= i0
L’hypothèse (H3) indique que les termes d’erreur εi sont non
corrélés ;
Lorsque l’on rajoutera une hypothèse de normalité sur les εi , les
erreurs εi seront alors indépendantes.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 8 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Écriture matricielle :
On peut écrire matriciellement le modèle (3) de la manière suivante :
Y = Xβ + ε (7)
où
y1 1 x11 ... x1p
β0 ε1
y2 1 x21 ... x2p β1 ε2
Y = .. , X= .. .. .. , β = .. , et ε = ..
. . . . . .
yn 1 xn,1 ... xnp βp εn
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Écriture matricielle :
On peut écrire matriciellement le modèle (3) de la manière suivante :
Y = Xβ + ε (7)
où
y1 1 x11 ... x1p
β0 ε1
y2 1 x21 ... x2p β1 ε2
Y = .. , X= .. .. .. , β = .. , et ε = ..
. . . . . .
yn 1 xn,1 ... xnp βp εn
Y désigne le vecteur à expliquer de taille n × 1,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Écriture matricielle :
On peut écrire matriciellement le modèle (3) de la manière suivante :
Y = Xβ + ε (7)
où
y1 1 x11 ... x1p
β0 ε1
y2 1 x21 ... x2p β1 ε2
Y = .. , X= .. .. .. , β = .. , et ε = ..
. . . . . .
yn 1 xn,1 ... xnp βp εn
Y désigne le vecteur à expliquer de taille n × 1,
X la matrice explicative de taille n × (p + 1),
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Écriture matricielle :
On peut écrire matriciellement le modèle (3) de la manière suivante :
Y = Xβ + ε (7)
où
y1 1 x11 ... x1p
β0 ε1
y2 1 x21 ... x2p β1 ε2
Y = .. , X= .. .. .. , β = .. , et ε = ..
. . . . . .
yn 1 xn,1 ... xnp βp εn
Y désigne le vecteur à expliquer de taille n × 1,
X la matrice explicative de taille n × (p + 1),
ε le vecteur d’erreurs de taille n × 1.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Hypothèses sous forme matricielle
Les hypothèses peuvent alors s’écrire sous forme matricielle :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Hypothèses sous forme matricielle
Les hypothèses peuvent alors s’écrire sous forme matricielle :
(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Hypothèses sous forme matricielle
Les hypothèses peuvent alors s’écrire sous forme matricielle :
(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn
(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :
V(Y) = σ 2 In
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Hypothèses sous forme matricielle
Les hypothèses peuvent alors s’écrire sous forme matricielle :
(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn
(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :
V(Y) = σ 2 In
Dans la suite de ce chapitre, on suppose que n > p + 1 et que la
matrice explicative X est de plein rang :
rang(X) = p + 1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Hypothèses sous forme matricielle
Les hypothèses peuvent alors s’écrire sous forme matricielle :
(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn
(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :
V(Y) = σ 2 In
Dans la suite de ce chapitre, on suppose que n > p + 1 et que la
matrice explicative X est de plein rang :
rang(X) = p + 1
On a donc plus d’observations que de variables et il n’existe pas
de liaison linéaire entre les colonnes x·j> = (x1j , · · · xij , · · · xnj ) c’est à
dire pas de multicolinéarité.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39
Modèle de régression linéaire multiple Hypothèses additionnelles
Hypothèses sous forme matricielle
Les hypothèses peuvent alors s’écrire sous forme matricielle :
(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn
(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :
V(Y) = σ 2 In
Dans la suite de ce chapitre, on suppose que n > p + 1 et que la
matrice explicative X est de plein rang :
rang(X) = p + 1
On a donc plus d’observations que de variables et il n’existe pas
de liaison linéaire entre les colonnes x·j> = (x1j , · · · xij , · · · xnj ) c’est à
dire pas de multicolinéarité.
Dans ce cas, la matrice carrée X > X d’ordre p + 1 est inversible.
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 10 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Sommaire
1 Modèle de régression linéaire multiple
2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
3 Test d’hypothèses et intervalle de confiance pour les paramètres βj
4 Prévision d’une valeur ultérieure
5 Sélection de variables
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 11 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
A partir de l’echantillon (aléatoire) de n observations
{(xi1 , . . . , xip , yi ) , i = 1, . . . , n}
on veut estimer les paramètres β0 , β1 , . . . , βp et σ 2 .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
A partir de l’echantillon (aléatoire) de n observations
{(xi1 , . . . , xip , yi ) , i = 1, . . . , n}
on veut estimer les paramètres β0 , β1 , . . . , βp et σ 2 .
1 Pour estimer β = (β0 , β1 , . . . , βp ), on peut utiliser la méthode des
moindres carrés qui ne nécessite pas d’hypothèse supplémentaire
sur la distribution de εi , contrairement à la méthode du maximum
de vraisemblance qui est fondée sur la normalité de εi .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
A partir de l’echantillon (aléatoire) de n observations
{(xi1 , . . . , xip , yi ) , i = 1, . . . , n}
on veut estimer les paramètres β0 , β1 , . . . , βp et σ 2 .
1 Pour estimer β = (β0 , β1 , . . . , βp ), on peut utiliser la méthode des
moindres carrés qui ne nécessite pas d’hypothèse supplémentaire
sur la distribution de εi , contrairement à la méthode du maximum
de vraisemblance qui est fondée sur la normalité de εi .
2 La méthode des moindres carrés ne fournit pas un estimateur de
σ 2.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 13 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
On cherche βb> = βb0 , βb1 , · · · , βbp ∈ Rp+1 qui minimise la somme
des erreurs quadratiques
εi2 = (yi − β0 − β1 xi1 − . . . − βp xip )2 , i = 1, · · · , n
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 13 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
On cherche βb> = βb0 , βb1 , · · · , βbp ∈ Rp+1 qui minimise la somme
des erreurs quadratiques
εi2 = (yi − β0 − β1 xi1 − . . . − βp xip )2 , i = 1, · · · , n
On doit donc résoudre le problème d’optimisation suivant par la
méthodes des moindres carrés :
" !#2
n p
βb = arg min yi − β0 + βj xij ∑ ∑
β ∈Rp+1 i=1 j=1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 13 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Résolution du problème d’optimisation
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Résolution du problème d’optimisation
Le problème d’optimisation est : min F(β ) avec
β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1
= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Résolution du problème d’optimisation
Le problème d’optimisation est : min F(β ) avec
β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1
= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ
Le minimum est atteint pour
∂ F(β )
=0
∂β
Rappels :
Soient v et x deux vecteurs de dimension n, et soit A une matrice de
dimension n × n. On a :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Résolution du problème d’optimisation
Le problème d’optimisation est : min F(β ) avec
β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1
= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ
Le minimum est atteint pour
∂ F(β )
=0
∂β
Rappels :
Soient v et x deux vecteurs de dimension n, et soit A une matrice de
dimension n × n. On a :
∂ vT x ∂ xT v
∂x = ∂x = v;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Résolution du problème d’optimisation
Le problème d’optimisation est : min F(β ) avec
β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1
= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ
Le minimum est atteint pour
∂ F(β )
=0
∂β
Rappels :
Soient v et x deux vecteurs de dimension n, et soit A une matrice de
dimension n × n. On a :
∂ vT x ∂ xT v
∂x = ∂x = v;
∂ xT Ax
Si A est symétrique, alors ∂x = 2Ax.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Solution du problème d’optimisation
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Solution du problème d’optimisation
Puisque la matrice X > X est inversible (on a supposé que la
matrice explicative X est de plein rang)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Solution du problème d’optimisation
Puisque la matrice X > X est inversible (on a supposé que la
matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Solution du problème d’optimisation
Puisque la matrice X > X est inversible (on a supposé que la
matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)
Le minimum de F(β ) est atteint en βb et égal à
n 2
2
∑ i
ε̂ = yi − b0 − βb1 xi1 − . . . − βbp xip
β
i=1
Ce minimum est appelé la somme des carrés des résidus (SCR).
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Solution du problème d’optimisation
Puisque la matrice X > X est inversible (on a supposé que la
matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)
Le minimum de F(β ) est atteint en βb et égal à
n 2
2
∑ i
ε̂ = yi − b0 − βb1 xi1 − . . . − βbp xip
β
i=1
Ce minimum est appelé la somme des carrés des résidus (SCR).
yi estime E [yi ] = β0 + ∑pj=1 βj xij et non pas yi . Une
La valeur prédite b
[
meilleure notation serait E [yi ].
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Solution du problème d’optimisation
Puisque la matrice X > X est inversible (on a supposé que la
matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)
Le minimum de F(β ) est atteint en βb et égal à
n 2
2
∑ i
ε̂ = yi − b0 − βb1 xi1 − . . . − βbp xip
β
i=1
Ce minimum est appelé la somme des carrés des résidus (SCR).
yi estime E [yi ] = β0 + ∑pj=1 βj xij et non pas yi . Une
La valeur prédite b
[
meilleure notation serait E [yi ].
Aucune des hypothèses n’a été utilisée ici pour obtenir βb.
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
−1 T
Propriétés de l’estimateur βb = X T X X Y:
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
−1 T
Propriétés de l’estimateur βb = X T X X Y:
Sous les hypothèses (H1’) et (H2’), on peut montrer que
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
−1 T
Propriétés de l’estimateur βb = X T X X Y:
Sous les hypothèses (H1’) et (H2’), on peut montrer que
E[βb] = β ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
−1 T
Propriétés de l’estimateur βb = X T X X Y:
Sous les hypothèses (H1’) et (H2’), on peut montrer que
E[βb] = β ;
−1
V(βb) = σ 2 X T X .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
−1 T
Propriétés de l’estimateur βb = X T X X Y:
Sous les hypothèses (H1’) et (H2’), on peut montrer que
E[βb] = β ;
−1
V(βb) = σ 2 X T X .
L’estimateur βb est sans biais.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
−1 T
Propriétés de l’estimateur βb = X T X X Y:
Sous les hypothèses (H1’) et (H2’), on peut montrer que
E[βb] = β ;
−1
V(βb) = σ 2 X T X .
L’estimateur βb est sans biais.
Il est aussi de variance minimale parmi tous les estimateurs
linéaires par rapport à Y sans biais (propriété dite de
Gauss-Markov).
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Écarts au modèle : Les résidus ε̂i
Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à
par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi
En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a
ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ
Conséquences de la MCO :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Écarts au modèle : Les résidus ε̂i
Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à
par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi
En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a
ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ
Conséquences de la MCO :
X > ε̂ = 0p+1 ⇒ ∑ni=1 ε̂i = 0 et ∑ni=1 ε̂i xij = 0 ∀j = 1, ..., p ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Écarts au modèle : Les résidus ε̂i
Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à
par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi
En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a
ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ
Conséquences de la MCO :
X > ε̂ = 0p+1 ⇒ ∑ni=1 ε̂i = 0 et ∑ni=1 ε̂i xij = 0 ∀j = 1, ..., p ;
⇒ Cov(ε̂, x·j ) = 0
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Écarts au modèle : Les résidus ε̂i
Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à
par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi
En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a
ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ
Conséquences de la MCO :
X > ε̂ = 0p+1 ⇒ ∑ni=1 ε̂i = 0 et ∑ni=1 ε̂i xij = 0 ∀j = 1, ..., p ;
⇒ Cov(ε̂, x·j ) = 0
Par construction du modèle, la corrélation entre le vecteur des
résidus d’une part et chacun des prédicteurs est nulle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Cas des données centrées :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Cas des données centrées :
Notons que le point moyen (x, y) vérifie parfaitement le modèle :
y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)
1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n
⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b
εi
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Cas des données centrées :
Notons que le point moyen (x, y) vérifie parfaitement le modèle :
y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)
1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n
⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b
εi
D’un point de vue pratique, c’est très souvent avantageux de
centrer les variables et même de les réduire.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Cas des données centrées :
Notons que le point moyen (x, y) vérifie parfaitement le modèle :
y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)
1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n
⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b
εi
D’un point de vue pratique, c’est très souvent avantageux de
centrer les variables et même de les réduire.
On obtient des variables centrées qui vérifie exactement le même
modèle et seulement la constante qui va disparaitre.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Cas des données centrées :
Notons que le point moyen (x, y) vérifie parfaitement le modèle :
y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)
1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n
⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b
εi
D’un point de vue pratique, c’est très souvent avantageux de
centrer les variables et même de les réduire.
On obtient des variables centrées qui vérifie exactement le même
modèle et seulement la constante qui va disparaitre.
Quand on centre les données, on obtient les mêmes coefficients
donc ça c’est une propriété tout à fait importante qui a une grande
valeur d’usage.
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 18 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation de σ 2
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation de σ 2
Le paramètre σ 2 est défini par
h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation de σ 2
Le paramètre σ 2 est défini par
h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2
En prenant ŷi = xi· βb comme estimateur de E [yi ], il apparaît naturel
d’estimer σ 2 par
2
1 n
2 ∑ni=1 (b
εi ) SCR
b2 =
σ ∑ (yi − ŷ i ) = = (10)
n − (p + 1) i=1 n−p−1 n−p−1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation de σ 2
Le paramètre σ 2 est défini par
h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2
En prenant ŷi = xi· βb comme estimateur de E [yi ], il apparaît naturel
d’estimer σ 2 par
2
1 n
2 ∑ni=1 (b
εi ) SCR
b2 =
σ ∑ (yi − ŷ i ) = = (10)
n − (p + 1) i=1 n−p−1 n−p−1
σb 2 est un estimateur sans biais de σ 2
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Estimation de σ 2
Le paramètre σ 2 est défini par
h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2
En prenant ŷi = xi· βb comme estimateur de E [yi ], il apparaît naturel
d’estimer σ 2 par
2
1 n
2 ∑ni=1 (b
εi ) SCR
b2 =
σ ∑ (yi − ŷ i ) = = (10)
n − (p + 1) i=1 n−p−1 n−p−1
σb 2 est un estimateur sans biais de σ 2
La perte de p + 1 degrés de liberté dans l’expression de σ b 2 est le
"coût" de l’estimation de β0 , β1 , . . . , βp nécessaire pour obtenir les
ŷi .
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 19 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Table d’analyse de la variance (ANOVA) :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 20 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Table d’analyse de la variance (ANOVA) :
On a la formule "classique" de l’analyse de la variance qui donne
la décomposition suivante :
n n n
∑ (yi − ȳn )2 = ∑ (ŷi − ȳn )2 + ∑ (yi − ŷi )2
i=1 i=1 i=1
variabilité totale = variabilité expliquée + variabilité résiduelle
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 20 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
Table d’analyse de la variance (ANOVA) :
On a la formule "classique" de l’analyse de la variance qui donne
la décomposition suivante :
n n n
∑ (yi − ȳn )2 = ∑ (ŷi − ȳn )2 + ∑ (yi − ŷi )2
i=1 i=1 i=1
variabilité totale = variabilité expliquée + variabilité résiduelle
On complète souvent l’étude en construisant la table d’ANOVA :
Source de variation Somme des carrés ddl carré moyen F
2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n
p
ŷi − ȳn = ∑ β̂j (xij − x̄j )
j=1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 20 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Sommaire
1 Modèle de régression linéaire multiple
2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
3 Test d’hypothèses et intervalle de confiance pour les paramètres βj
4 Prévision d’une valeur ultérieure
5 Sélection de variables
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 21 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Hypothèse de normalité des erreurs
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Hypothèse de normalité des erreurs
On veux maintenant tester la nullité des coefficients βj du modèle
de régression.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Hypothèse de normalité des erreurs
On veux maintenant tester la nullité des coefficients βj du modèle
de régression.
Si β1 = . . . = βp = 0 alors les prédicateurs ne servent à rien !
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Hypothèse de normalité des erreurs
On veux maintenant tester la nullité des coefficients βj du modèle
de régression.
Si β1 = . . . = βp = 0 alors les prédicateurs ne servent à rien !
Pour faire ce test, nous allons comparer la part de la variabilité
expliquée par le modèle SCE avec la part de la variabilité
résiduelle SCR.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Hypothèse de normalité des erreurs
On veux maintenant tester la nullité des coefficients βj du modèle
de régression.
Si β1 = . . . = βp = 0 alors les prédicateurs ne servent à rien !
Pour faire ce test, nous allons comparer la part de la variabilité
expliquée par le modèle SCE avec la part de la variabilité
résiduelle SCR.
Il est nécessaire de faire une hypothèse supplémentaire :
(H3)’ : Hypothèse de normalité des erreurs
ε ∼ N 0n , σ 2 In
(11)
ou de manière équivalente :
Y ∼ N Xβ , σ 2 In
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 :Test de signification du modèle (Test global)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 :Test de signification du modèle (Test global)
Typiquement, on commence par tester :
H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 :Test de signification du modèle (Test global)
Typiquement, on commence par tester :
H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".
SCR
On sait que E = σ 2.
n−p−1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 :Test de signification du modèle (Test global)
Typiquement, on commence par tester :
H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".
SCR
On sait que E = σ 2.
n−p−1
SCE
D’autre part, si H0 est vraie, on peut montrer que E = σ2
p
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 :Test de signification du modèle (Test global)
Typiquement, on commence par tester :
H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".
SCR
On sait que E = σ 2.
n−p−1
SCE
D’autre part, si H0 est vraie, on peut montrer que E = σ2
p
On utilise la statistique suivante :
2
SCE/p ∑n (ŷi − ȳn ) /p
Fobs = = n i=1
SCR/(n − p − 1) ∑i=1 (yi − ŷi )2 /(n − p − 1)
Sous H0 , la statistique Fobs est distribuée selon une loi de Fisher à p et
n − p − 1 degrés de libertés.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 : Test de signification du modèle (Règle de décision)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 24 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 1 : Test de signification du modèle (Règle de décision)
On rejette H0 avec un risque α si Fobs ≥ f1−α (p, n − p − 1) où
f1−α (p, n − p − 1) est le fractile d’ordre 1 − α de la loi F(p, n − p − 1).
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 24 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On désire maintenant tester :
H0 : ”βj = 0” contre H1 : ”βj 6= 0”
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On désire maintenant tester :
H0 : ”βj = 0” contre H1 : ”βj 6= 0”
b2
Nouvelles propriétés pour les estimateurs βbj et σ
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On désire maintenant tester :
H0 : ”βj = 0” contre H1 : ”βj 6= 0”
b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On désire maintenant tester :
H0 : ”βj = 0” contre H1 : ”βj 6= 0”
b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
(a) βbj ∼ N βj , σ 2 cjj où cjj signifie le (j+1)-ième terme diagonal de la
−1
matrice X T X ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On désire maintenant tester :
H0 : ”βj = 0” contre H1 : ”βj 6= 0”
b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
(a) βbj ∼ N βj , σ 2 cjj où cjj signifie le (j+1)-ième terme diagonal de la
−1
matrice X T X ;
b2
(n−p−1)σ
(b) σ2
∼ χ 2 (n − p − 1) ;
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On désire maintenant tester :
H0 : ”βj = 0” contre H1 : ”βj 6= 0”
b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
(a) βbj ∼ N βj , σ 2 cjj où cjj signifie le (j+1)-ième terme diagonal de la
−1
matrice X T X ;
(n−p−1)σb2
(b) σ2
∼ χ 2 (n − p − 1) ;
(c) b 2 sont indépendants
βbj et σ
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 26 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On déduit alors des propriétés (a)-(c) que
βj −βj
√
b
σ 2 cjj βbj − βj
q = √ ∼ T(n − p − 1)
b2
σ σb cjj
σ2
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 26 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Étape 2 : Test de significativité d’un seul paramètre βj
On déduit alors des propriétés (a)-(c) que
βj −βj
√
b
σ 2 cjj βbj − βj
q = √ ∼ T(n − p − 1)
b2
σ σb cjj
σ2
On utilisera donc la statistique suivante :
βbj − βj
Tn = √
σb cjj
qui est distribuée selon une loi de Student à n − p − 1 degrés de
libertés.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 26 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 27 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1
Sous l’hypothèse H0 : ”βj = 0” , on a
βbj
Tn = √ ∼ T(n − p − 1)
σb cjj
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 27 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1
Sous l’hypothèse H0 : ”βj = 0” , on a
βbj
Tn = √ ∼ T(n − p − 1)
σb cjj
Pour une hypothèse alternative H1 : ”βj 6= 0” bilatérale, on rejette
H0 avec un risque 0 ≤ α ≤ 1 si
|t| ≥ t1−α/2 (n − p − 1)
où t est la réalisation de Tn et t1−α/2 (n − p − 1) est le fractile d’ordre
1 − α/2 de la loi T(n − p − 1).
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 27 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
On rejette H0 si p-valeur ≤ α.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj
On rejette H0 si 0 n’appartient pas à cet intervalle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj
On rejette H0 si 0 n’appartient pas à cet intervalle.
Rejeter H0 signifie :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj
On rejette H0 si 0 n’appartient pas à cet intervalle.
Rejeter H0 signifie :
que le coefficient βj est significativement non nul,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Test de H0 contre H1 à l’aide la p-valeur
Pour réaliser ce test, on peut également :
regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )
On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj
On rejette H0 si 0 n’appartient pas à cet intervalle.
Rejeter H0 signifie :
que le coefficient βj est significativement non nul,
que βj s’interprète comme le taux d’accroissement moyen de y en
fonction d’une variation de xj lorsque tous les autres régresseurs
x1 , . . . , xj−1 , xj+1 , . . . , xp restent fixés.
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Cela revient à comparer deux modèles :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Cela revient à comparer deux modèles :
1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Cela revient à comparer deux modèles :
1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
2 le modèle réduit à p − q regresseurs (modèle 0 ) pour lequel on
évalue la somme des carrés des résidus SCR0 .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Cela revient à comparer deux modèles :
1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
2 le modèle réduit à p − q regresseurs (modèle 0 ) pour lequel on
évalue la somme des carrés des résidus SCR0 .
On peut montrer que sous H0 :
(SCR0 − SCR1 ) /q
∼ F(q, n − p − 1)
SCR1 /(n − p − 1)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Cela revient à comparer deux modèles :
1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
2 le modèle réduit à p − q regresseurs (modèle 0 ) pour lequel on
évalue la somme des carrés des résidus SCR0 .
On peut montrer que sous H0 :
(SCR0 − SCR1 ) /q
∼ F(q, n − p − 1)
SCR1 /(n − p − 1)
La zone de rejet associée à cette statistique de test est donc :
R =]f1−α (q, n − p − 1), +∞[
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Contribution jointe d’un ensemble de régresseurs
On peut maintenant tester la nullité de q ≤ p paramètres :
H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.
Cela revient à comparer deux modèles :
1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
2 le modèle réduit à p − q regresseurs (modèle 0 ) pour lequel on
évalue la somme des carrés des résidus SCR0 .
On peut montrer que sous H0 :
(SCR0 − SCR1 ) /q
∼ F(q, n − p − 1)
SCR1 /(n − p − 1)
La zone de rejet associée à cette statistique de test est donc :
R =]f1−α (q, n − p − 1), +∞[
Rejeter H signifie qu’au
Pr. LALAOUI (
[email protected])moins
Régression unmultiple
linéaire des q coefficients est non nul.
2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Le coefficient de détermination R2 :
Source de variation Somme des carrés ddl carré moyen F
2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Le coefficient de détermination R2 :
Source de variation Somme des carrés ddl carré moyen F
2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n
On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de mesurer
l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = = 1−
SCT SCT
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Le coefficient de détermination R2 :
Source de variation Somme des carrés ddl carré moyen F
2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n
On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de mesurer
l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = = 1−
SCT SCT
Le coefficient R2 donne la proportion de variabilité de y qui est expliquée par le
modèle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Le coefficient de détermination R2 :
Source de variation Somme des carrés ddl carré moyen F
2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n
On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de mesurer
l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = = 1−
SCT SCT
Le coefficient R2 donne la proportion de variabilité de y qui est expliquée par le
modèle.
Plus le R2 est proche de 1, meilleure est l’adéquation du modèle aux données.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
On peut montrer que R2 = [ρ(ŷ, y)]2 .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
On peut montrer que R2 = [ρ(ŷ, y)]2 .
2 Le coefficient R2ajuste = 1 − SCR/(n−p−1)
SCT/(n−1)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
On peut montrer que R2 = [ρ(ŷ, y)]2 .
2 Le coefficient R2ajuste = 1 − SCR/(n−p−1)
SCT/(n−1)
Le R au carré ajusté (ou coefficient de détermination ajusté) est
utilisé dans une régression multiple pour voir le degré d’efficacité
des variables indépendantes pour expliquer la variable dépendante.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
On peut montrer que R2 = [ρ(ŷ, y)]2 .
2 Le coefficient R2ajuste = 1 − SCR/(n−p−1)
SCT/(n−1)
Le R au carré ajusté (ou coefficient de détermination ajusté) est
utilisé dans une régression multiple pour voir le degré d’efficacité
des variables indépendantes pour expliquer la variable dépendante.
En termes plus simples, le R au carré ajusté nous indique quel
pourcentage de la variation de la variable dépendante est expliqué
collectivement par toutes les variables indépendantes.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj
Les critères R2 et R2 ajusté :
SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
On peut montrer que R2 = [ρ(ŷ, y)]2 .
2 Le coefficient R2ajuste = 1 − SCR/(n−p−1)
SCT/(n−1)
Le R au carré ajusté (ou coefficient de détermination ajusté) est
utilisé dans une régression multiple pour voir le degré d’efficacité
des variables indépendantes pour expliquer la variable dépendante.
En termes plus simples, le R au carré ajusté nous indique quel
pourcentage de la variation de la variable dépendante est expliqué
collectivement par toutes les variables indépendantes.
R2ajuste n’augmente pas forcément lorsque le nombre de variables
introduites dans le modèle augmente.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39
Prévision d’une valeur ultérieure
Sommaire
1 Modèle de régression linéaire multiple
2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
3 Test d’hypothèses et intervalle de confiance pour les paramètres βj
4 Prévision d’une valeur ultérieure
5 Sélection de variables
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 32 / 39
Prévision d’une valeur ultérieure
Prévision d’une valeur ultérieure
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39
Prévision d’une valeur ultérieure
Prévision d’une valeur ultérieure
On désire prévoir à l’aide du modèle la valeur de la variable y pour des
observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39
Prévision d’une valeur ultérieure
Prévision d’une valeur ultérieure
On désire prévoir à l’aide du modèle la valeur de la variable y pour des
observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Posons T
x0 = 1, x1,0 , . . . , xp,0 ∈ Rp+1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39
Prévision d’une valeur ultérieure
Prévision d’une valeur ultérieure
On désire prévoir à l’aide du modèle la valeur de la variable y pour des
observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Posons T
x0 = 1, x1,0 , . . . , xp,0 ∈ Rp+1
D’après le modèle on a :
y0 = x0T β + ε0
et la prédiction est :
[
y0 = E
b [y0 ] = x0T βb
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39
Prévision d’une valeur ultérieure
Prévision d’une valeur ultérieure
On désire prévoir à l’aide du modèle la valeur de la variable y pour des
observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Posons T
x0 = 1, x1,0 , . . . , xp,0 ∈ Rp+1
D’après le modèle on a :
y0 = x0T β + ε0
et la prédiction est :
[
y0 = E
b [y0 ] = x0T βb
y0 − y0 et on peut montrer que sous les
L’erreur de prédiction est définie par b
hypothèses du modèle (incluant l’hypothèse de normalité), on a :
−1
y0 − y0 ∼ N 0, σ 2 1 + x0T X T X
b x0
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39
Prévision d’une valeur ultérieure
Intervalle de prédiction :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39
Prévision d’une valeur ultérieure
Intervalle de prédiction :
On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39
Prévision d’une valeur ultérieure
Intervalle de prédiction :
On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0
On peut montrer que :
y0 − ŷ0
q ∼ T(n − p − 1)
b 1 + x0T (X T X)−1 x0
σ
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39
Prévision d’une valeur ultérieure
Intervalle de prédiction :
On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0
On peut montrer que :
y0 − ŷ0
q ∼ T(n − p − 1)
b 1 + x0T (X T X)−1 x0
σ
On utilise ce résultat pour construire un intervalle de prédiction pour y0 , c’est à
dire l’intervalle [A, B] tel que
P (A ≤ y0 ≤ B) = 1 − α
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39
Prévision d’une valeur ultérieure
Intervalle de prédiction :
On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0
On peut montrer que :
y0 − ŷ0
q ∼ T(n − p − 1)
b 1 + x0T (X T X)−1 x0
σ
On utilise ce résultat pour construire un intervalle de prédiction pour y0 , c’est à
dire l’intervalle [A, B] tel que
P (A ≤ y0 ≤ B) = 1 − α
On en déduit l’intervalle de prédiction pour y0 au niveau de confiance 1 − α
suivant :
q
ŷ0 ± t1−α/2 (n − p − 1)σb 1 + x0T (X T X)−1 X0 (12)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39
Prévision d’une valeur ultérieure
Intervalle de confiance :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39
Prévision d’une valeur ultérieure
Intervalle de confiance :
On peut aussi construire un intervalle de confiance de la valeur moyenne
E [y0 ] = x0T β
qui est cette fois un paramètre.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39
Prévision d’une valeur ultérieure
Intervalle de confiance :
On peut aussi construire un intervalle de confiance de la valeur moyenne
E [y0 ] = x0T β
qui est cette fois un paramètre.
On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E [y0 ] ≤ B) = 1 − α
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39
Prévision d’une valeur ultérieure
Intervalle de confiance :
On peut aussi construire un intervalle de confiance de la valeur moyenne
E [y0 ] = x0T β
qui est cette fois un paramètre.
On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E [y0 ] ≤ B) = 1 − α
Pour construire cet intervalle, on montre que :
−1
ŷ0 ∼ N x00 β , σ 2 x0T X T X x0
ŷ0 − x0T β
q ∼ T(n − p − 1)
b x0T (X T X)−1 x0
σ
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39
Prévision d’une valeur ultérieure
Intervalle de confiance :
On peut aussi construire un intervalle de confiance de la valeur moyenne
E [y0 ] = x0T β
qui est cette fois un paramètre.
On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E [y0 ] ≤ B) = 1 − α
Pour construire cet intervalle, on montre que :
−1
ŷ0 ∼ N x00 β , σ 2 x0T X T X x0
ŷ0 − x0T β
q ∼ T(n − p − 1)
b x0T (X T X)−1 x0
σ
On en déduit l’intervalle de confiance de E [y0 ] = x0T β suivant :
q
y0 ∓ t1−α/2 (n − p − 1)σb x0T (X T X)−1 x0
b (13)
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39
Sélection de variables
Sommaire
1 Modèle de régression linéaire multiple
2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2
3 Test d’hypothèses et intervalle de confiance pour les paramètres βj
4 Prévision d’une valeur ultérieure
5 Sélection de variables
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 36 / 39
Sélection de variables
Sélection de variables :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Sélection de variables :
Il s’agit maintenant de sélectionner parmi les p variables explicatives, les
q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Sélection de variables :
Il s’agit maintenant de sélectionner parmi les p variables explicatives, les
q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Sélection de variables :
Il s’agit maintenant de sélectionner parmi les p variables explicatives, les
q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :
1 un critère de qualité d’un modèle afin de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Sélection de variables :
Il s’agit maintenant de sélectionner parmi les p variables explicatives, les
q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :
1 un critère de qualité d’un modèle afin de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
2 une procédure qui permet de choisir parmi tous les modèles, le
meilleur au sens de ce critère. On parle de procédure de choix de
modèle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Sélection de variables :
Il s’agit maintenant de sélectionner parmi les p variables explicatives, les
q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :
1 un critère de qualité d’un modèle afin de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
2 une procédure qui permet de choisir parmi tous les modèles, le
meilleur au sens de ce critère. On parle de procédure de choix de
modèle.
Le nombre de modèles à considérer est ∑pq=1 Cpq = 2p − 1. Ce nombre
croît exponentiellement avec p. Par exemple, si p = 30, on devrait
considérer 230 ≈9 modèles...
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Sélection de variables :
Il s’agit maintenant de sélectionner parmi les p variables explicatives, les
q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :
1 un critère de qualité d’un modèle afin de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
2 une procédure qui permet de choisir parmi tous les modèles, le
meilleur au sens de ce critère. On parle de procédure de choix de
modèle.
Le nombre de modèles à considérer est ∑pq=1 Cpq = 2p − 1. Ce nombre
croît exponentiellement avec p. Par exemple, si p = 30, on devrait
considérer 230 ≈9 modèles...
En pratique, on utilise donc des heuristiques dont les plus simples sont
les procédures pas à pas ascendante ou descendante.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39
Sélection de variables
Les critères AIC et BIC :
Ce sont deux critères de vraisemblance pénalisées définis par :
1- Akaike Information Criterion
AlC = −2 ln(L) + 2k
2- Bayesian Information Criterion
BIC = −2 ln(L) + k ln(n)
où L est la vraisemblance maximisée et k est le nombre de paramètres libres
du modèle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 38 / 39
Sélection de variables
Les critères AIC et BIC :
Ce sont deux critères de vraisemblance pénalisées définis par :
1- Akaike Information Criterion
AlC = −2 ln(L) + 2k
2- Bayesian Information Criterion
BIC = −2 ln(L) + k ln(n)
où L est la vraisemblance maximisée et k est le nombre de paramètres libres
du modèle.
En régression multiple, il y a q + 2 paramètres β0 , β1 , . . . , βq , σ et une
equation donc k = q + 1 paramètres libres.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 38 / 39
Sélection de variables
Les critères AIC et BIC :
Ce sont deux critères de vraisemblance pénalisées définis par :
1- Akaike Information Criterion
AlC = −2 ln(L) + 2k
2- Bayesian Information Criterion
BIC = −2 ln(L) + k ln(n)
où L est la vraisemblance maximisée et k est le nombre de paramètres libres
du modèle.
En régression multiple, il y a q + 2 paramètres β0 , β1 , . . . , βq , σ et une
equation donc k = q + 1 paramètres libres.
la vraisemblance est définie comme la densité conjointe des yi et son
expression est
2
1 1 T
L β,σ = n/2
exp − 2 (Y − Xβ ) (Y − Xβ )
(2πσ 2 ) 2σ
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 38 / 39
Sélection de variables
Écriture simplifiée des critères AIC et BIC en régression multiple :
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39
Sélection de variables
Écriture simplifiée des critères AIC et BIC en régression multiple :
Les estimateurs
−1 T du maximum de vraisemblance sont
β̃ = X T X X Y et σ̃ 2 = SCR
n .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39
Sélection de variables
Écriture simplifiée des critères AIC et BIC en régression multiple :
Les estimateurs
−1 T du maximum de vraisemblance sont
β̃ = X T X X Y et σ̃ 2 = SCRn .
La vraisemblance maximisée est :
2
1 SCR
L = L β̃ , σ̃ = n/2
exp − 2
(2π σ̃ 2 ) 2σ̃
−2 ln(L) = n ln 2π σ̃ 2 + 1
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39
Sélection de variables
Écriture simplifiée des critères AIC et BIC en régression multiple :
Les estimateurs
−1 T du maximum de vraisemblance sont
β̃ = X T X X Y et σ̃ 2 = SCRn .
La vraisemblance maximisée est :
2
1 SCR
L = L β̃ , σ̃ = n/2
exp − 2
(2π σ̃ 2 ) 2σ̃
−2 ln(L) = n ln 2π σ̃ 2 + 1
Écriture simplifiée en régression multiple :
2π
AIC = n ln(SCR) + 2k + n(1 + ln( ))
n
BIC = n ln(SCR) + (k − n) ln(n) + n(1 + ln(2π))
Ces critères doivent être minimisés dans une procédure de choix
de modèle.
Pr. LALAOUI (
[email protected]) Régression linéaire multiple 2023/2024 39 / 39