0% ont trouvé ce document utile (0 vote)

69 vues166 pages

Modèle de régression linéaire multiple

Le document présente le modèle de régression linéaire multiple, qui est une généralisation du modèle de régression simple lorsque les variables explicatives sont en nombre quelconque. Le modèle est défini et ses hypothèses sont décrites.

Transféré par

Aicha Mattouhi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

69 vues166 pages

Modèle de régression linéaire multiple

Transféré par

Aicha Mattouhi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre III: Régression linéaire multiple

Module: Économétrie des séries temporelles

Licence en Sciences des Données (S5)

Pr. Sidi Mohamed LALAOUI BEN CHERIF1

[email protected]

1 Institut AL Khwarizmi

Université Mohammed VI Polytechnique

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 1 / 39

Outline

1 Modèle de régression linéaire multiple

2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

3 Test d’hypothèses et intervalle de confiance pour les paramètres βj

4 Prévision d’une valeur ultérieure

5 Sélection de variables

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 2 / 39

Modèle de régression linéaire multiple

Sommaire

1 Modèle de régression linéaire multiple

1. 1 Hypothèses additionnelles

2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

3 Test d’hypothèses et intervalle de confiance pour les paramètres βj

4 Prévision d’une valeur ultérieure

5 Sélection de variables

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 3 / 39

Modèle de régression linéaire multiple

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

où :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

où :
y est la variable à expliquer (à valeurs dans R ) ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
ε est le terme d’erreur aléatoire du modèle ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

où :
y est la variable à expliquer (à valeurs dans R ) ;
x1 , . . . , xp sont les variables explicatives (à valeurs dans R ) ;
ε est le terme d’erreur aléatoire du modèle ;
β0 , β1 , . . . , βp sont les paramètres à estimer.
La désignation "multiple" fait référence au fait qu’il y a plusieurs
variables explicatives xj pour expliquer y.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Le modèle de régression linéaire multiple est une généralisation du

modèle de régression simple lorsque les variables explicatives sont en
nombre quelconque.
Un modèle de régression linéaire multiple est de la forme suivante :

y = β0 + β1 x1 + β2 x2 + · · · + βp xp + ε (1)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 4 / 39

Modèle de régression linéaire multiple

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39

Modèle de régression linéaire multiple

Pour n observations, on peut écrire le modèle de régression

linéaire multiple sous la forme :

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)

p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1

Dans ce chapitre, on suppose que :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39

Modèle de régression linéaire multiple

Pour n observations, on peut écrire le modèle de régression

linéaire multiple sous la forme :

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)

p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1

Dans ce chapitre, on suppose que :

xij est observée et non aléatoire,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39

Modèle de régression linéaire multiple

Pour n observations, on peut écrire le modèle de régression

linéaire multiple sous la forme :

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)

p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1

Dans ce chapitre, on suppose que :

xij est observée et non aléatoire,
yi est observée et aléatoire,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39

Modèle de régression linéaire multiple

Pour n observations, on peut écrire le modèle de régression

linéaire multiple sous la forme :

yi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip + εi ∀i = 1, . . . , n (2)

p
yi = β0 + ∑ βj xij + εi , ∀i = 1, . . . , n (3)
j=1

Dans ce chapitre, on suppose que :

xij est observée et non aléatoire,
yi est observée et aléatoire,
εi est une variable aléatoire, non observée.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 5 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

On fait les trois hypothèses additionnelles suivantes :

(H1) : Erreurs centrées

E [εi ] = 0, ∀i = 1, . . . , n (4)
ou de manière équivalente :
p
E [yi ] = β0 + ∑ βj xij , ∀i = 1, . . . , n
j=1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 6 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

On fait les trois hypothèses additionnelles suivantes :

(H1) : Erreurs centrées

E [εi ] = 0, ∀i = 1, . . . , n (4)
ou de manière équivalente :
p
E [yi ] = β0 + ∑ βj xij , ∀i = 1, . . . , n
j=1

L’hypothèse (H1) indique que les erreurs sont centrées ce qui

implique que yi dépend seulement de xij et que les autres sources
de variations de yi sont aléatoires.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 6 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H2) : Homoscédasticité

V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H2) : Homoscédasticité

V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n
On parle d’hypothèse d’homoscédasticité (' homogénéité des
variances ) ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H2) : Homoscédasticité

V (εi ) = σ 2 , ∀i = 1, . . . , n (5)
ou de manière équivalente : V (yi ) = σ 2 , ∀i = 1, . . . , n
On parle d’hypothèse d’homoscédasticité (' homogénéité des
variances ) ;
Cette variance est supposée constante et indépendante de xi ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H2) : Homoscédasticité

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 7 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H3) : Termes d’erreurs non corrélés

Cov (εi , εi0 ) = 0, ∀i 6= i0 (6)

ou de manière équivalente :

Cov (yi , yi0 ) = 0, ∀i 6= i0

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 8 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H3) : Termes d’erreurs non corrélés

Cov (εi , εi0 ) = 0, ∀i 6= i0 (6)

ou de manière équivalente :

Cov (yi , yi0 ) = 0, ∀i 6= i0

L’hypothèse (H3) indique que les termes d’erreur εi sont non

corrélés ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 8 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

(H3) : Termes d’erreurs non corrélés

Cov (εi , εi0 ) = 0, ∀i 6= i0 (6)

ou de manière équivalente :

Cov (yi , yi0 ) = 0, ∀i 6= i0

L’hypothèse (H3) indique que les termes d’erreur εi sont non

corrélés ;
Lorsque l’on rajoutera une hypothèse de normalité sur les εi , les
erreurs εi seront alors indépendantes.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 8 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Écriture matricielle :

On peut écrire matriciellement le modèle (3) de la manière suivante :

Y = Xβ + ε (7)

où
y1 1 x11 ... x1p
       
β0 ε1
 y2   1 x21 ... x2p   β1   ε2 
Y = .. , X= .. .. .. , β = .. , et ε = ..
       

 .   . . .   .   . 
yn 1 xn,1 ... xnp βp εn

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Écriture matricielle :

On peut écrire matriciellement le modèle (3) de la manière suivante :

Y = Xβ + ε (7)

Y désigne le vecteur à expliquer de taille n × 1,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Écriture matricielle :

On peut écrire matriciellement le modèle (3) de la manière suivante :

Y = Xβ + ε (7)

Y désigne le vecteur à expliquer de taille n × 1,

X la matrice explicative de taille n × (p + 1),

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Écriture matricielle :

On peut écrire matriciellement le modèle (3) de la manière suivante :

Y = Xβ + ε (7)

Y désigne le vecteur à expliquer de taille n × 1,

X la matrice explicative de taille n × (p + 1),
ε le vecteur d’erreurs de taille n × 1.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 9 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Hypothèses sous forme matricielle

Les hypothèses peuvent alors s’écrire sous forme matricielle :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Hypothèses sous forme matricielle

Les hypothèses peuvent alors s’écrire sous forme matricielle :

(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Hypothèses sous forme matricielle

Les hypothèses peuvent alors s’écrire sous forme matricielle :

(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn

(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :

V(Y) = σ 2 In

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Hypothèses sous forme matricielle

Les hypothèses peuvent alors s’écrire sous forme matricielle :

(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn

(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :

V(Y) = σ 2 In
Dans la suite de ce chapitre, on suppose que n > p + 1 et que la
matrice explicative X est de plein rang :
rang(X) = p + 1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Hypothèses sous forme matricielle

Les hypothèses peuvent alors s’écrire sous forme matricielle :

(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn

(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :

V(Y) = σ 2 In
Dans la suite de ce chapitre, on suppose que n > p + 1 et que la
matrice explicative X est de plein rang :
rang(X) = p + 1

On a donc plus d’observations que de variables et il n’existe pas

de liaison linéaire entre les colonnes x·j> = (x1j , · · · xij , · · · xnj ) c’est à
dire pas de multicolinéarité.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39

Modèle de régression linéaire multiple Hypothèses additionnelles

Hypothèses sous forme matricielle

Les hypothèses peuvent alors s’écrire sous forme matricielle :

(H1’) : E(ε) = 0n ou de manière équivalente :
E(Y) = Xβ ∈ Rn

(H2’) & (H3’) : V(ε) = σ 2 In ou de manière équivalente :

V(Y) = σ 2 In
Dans la suite de ce chapitre, on suppose que n > p + 1 et que la
matrice explicative X est de plein rang :
rang(X) = p + 1

On a donc plus d’observations que de variables et il n’existe pas

de liaison linéaire entre les colonnes x·j> = (x1j , · · · xij , · · · xnj ) c’est à
dire pas de multicolinéarité.
Dans ce cas, la matrice carrée X > X d’ordre p + 1 est inversible.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 10 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Sommaire

1 Modèle de régression linéaire multiple

2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

3 Test d’hypothèses et intervalle de confiance pour les paramètres βj

4 Prévision d’une valeur ultérieure

5 Sélection de variables

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 11 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

A partir de l’echantillon (aléatoire) de n observations

{(xi1 , . . . , xip , yi ) , i = 1, . . . , n}

on veut estimer les paramètres β0 , β1 , . . . , βp et σ 2 .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

A partir de l’echantillon (aléatoire) de n observations

{(xi1 , . . . , xip , yi ) , i = 1, . . . , n}

on veut estimer les paramètres β0 , β1 , . . . , βp et σ 2 .

1 Pour estimer β = (β0 , β1 , . . . , βp ), on peut utiliser la méthode des
moindres carrés qui ne nécessite pas d’hypothèse supplémentaire
sur la distribution de εi , contrairement à la méthode du maximum
de vraisemblance qui est fondée sur la normalité de εi .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

A partir de l’echantillon (aléatoire) de n observations

{(xi1 , . . . , xip , yi ) , i = 1, . . . , n}

on veut estimer les paramètres β0 , β1 , . . . , βp et σ 2 .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 12 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 13 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

On cherche βb> = βb0 , βb1 , · · · , βbp ∈ Rp+1 qui minimise la somme
des erreurs quadratiques

εi2 = (yi − β0 − β1 xi1 − . . . − βp xip )2 , i = 1, · · · , n

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 13 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

On cherche βb> = βb0 , βb1 , · · · , βbp ∈ Rp+1 qui minimise la somme
des erreurs quadratiques

εi2 = (yi − β0 − β1 xi1 − . . . − βp xip )2 , i = 1, · · · , n

On doit donc résoudre le problème d’optimisation suivant par la

méthodes des moindres carrés :
" !#2
n p
βb = arg min yi − β0 + βj xij ∑ ∑
β ∈Rp+1 i=1 j=1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 13 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Résolution du problème d’optimisation

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Résolution du problème d’optimisation

Le problème d’optimisation est : min F(β ) avec

β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1

= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Résolution du problème d’optimisation

Le problème d’optimisation est : min F(β ) avec

β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1

= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ

Le minimum est atteint pour

∂ F(β )
=0
∂β

Rappels :
Soient v et x deux vecteurs de dimension n, et soit A une matrice de
dimension n × n. On a :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Résolution du problème d’optimisation

Le problème d’optimisation est : min F(β ) avec

β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1

= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ

Le minimum est atteint pour

∂ F(β )
=0
∂β

Rappels :
Soient v et x deux vecteurs de dimension n, et soit A une matrice de
dimension n × n. On a :
∂ vT x ∂ xT v
∂x = ∂x = v;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Résolution du problème d’optimisation

Le problème d’optimisation est : min F(β ) avec

β ∈Rp+1
" !#2
n p
F(β ) = ∑ yi − β0 + ∑ βj xij
i=1 j=1

= (Y − Xβ )T (Y − Xβ )
= Y T Y − 2β T X T Y + β T X T Xβ

Le minimum est atteint pour

∂ F(β )
=0
∂β

Rappels :
Soient v et x deux vecteurs de dimension n, et soit A une matrice de
dimension n × n. On a :
∂ vT x ∂ xT v
∂x = ∂x = v;
∂ xT Ax
Si A est symétrique, alors ∂x = 2Ax.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 14 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Solution du problème d’optimisation

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Solution du problème d’optimisation

Puisque la matrice X > X est inversible (on a supposé que la

matrice explicative X est de plein rang)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Solution du problème d’optimisation

Puisque la matrice X > X est inversible (on a supposé que la

matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Solution du problème d’optimisation

Puisque la matrice X > X est inversible (on a supposé que la

matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)

Le minimum de F(β ) est atteint en βb et égal à

n 2
2
∑ i
ε̂ = yi − b0 − βb1 xi1 − . . . − βbp xip
β
i=1

Ce minimum est appelé la somme des carrés des résidus (SCR).

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Solution du problème d’optimisation

Puisque la matrice X > X est inversible (on a supposé que la

matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)

Le minimum de F(β ) est atteint en βb et égal à

n 2
2
∑ i
ε̂ = yi − b0 − βb1 xi1 − . . . − βbp xip
β
i=1

Ce minimum est appelé la somme des carrés des résidus (SCR).

yi estime E [yi ] = β0 + ∑pj=1 βj xij et non pas yi . Une
La valeur prédite b
[
meilleure notation serait E [yi ].

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Solution du problème d’optimisation

Puisque la matrice X > X est inversible (on a supposé que la

matrice explicative X est de plein rang)
Alors, on en déduit après quelques manipulations :
−1 T
βb = X T X X Y (8)

Le minimum de F(β ) est atteint en βb et égal à

n 2
2
∑ i
ε̂ = yi − b0 − βb1 xi1 − . . . − βbp xip
β
i=1

Ce minimum est appelé la somme des carrés des résidus (SCR).

yi estime E [yi ] = β0 + ∑pj=1 βj xij et non pas yi . Une
La valeur prédite b
[
meilleure notation serait E [yi ].
Aucune des hypothèses n’a été utilisée ici pour obtenir βb.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 15 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

−1 T
Propriétés de l’estimateur βb = X T X X Y:

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

−1 T
Propriétés de l’estimateur βb = X T X X Y:

Sous les hypothèses (H1’) et (H2’), on peut montrer que

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

−1 T
Propriétés de l’estimateur βb = X T X X Y:

Sous les hypothèses (H1’) et (H2’), on peut montrer que

E[βb] = β ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

−1 T
Propriétés de l’estimateur βb = X T X X Y:

Sous les hypothèses (H1’) et (H2’), on peut montrer que

E[βb] = β ;
−1
V(βb) = σ 2 X T X .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

−1 T
Propriétés de l’estimateur βb = X T X X Y:

Sous les hypothèses (H1’) et (H2’), on peut montrer que

E[βb] = β ;
−1
V(βb) = σ 2 X T X .
L’estimateur βb est sans biais.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

−1 T
Propriétés de l’estimateur βb = X T X X Y:

Sous les hypothèses (H1’) et (H2’), on peut montrer que

E[βb] = β ;
−1
V(βb) = σ 2 X T X .
L’estimateur βb est sans biais.
Il est aussi de variance minimale parmi tous les estimateurs
linéaires par rapport à Y sans biais (propriété dite de
Gauss-Markov).

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 16 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Écarts au modèle : Les résidus ε̂i

Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à

par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi

En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a

ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ

Conséquences de la MCO :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Écarts au modèle : Les résidus ε̂i

Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à

par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi

En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a

ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ

Conséquences de la MCO :
X > ε̂ = 0p+1 ⇒ ∑ni=1 ε̂i = 0 et ∑ni=1 ε̂i xij = 0 ∀j = 1, ..., p ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Écarts au modèle : Les résidus ε̂i

Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à

par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi

En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a

ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ

Conséquences de la MCO :
X > ε̂ = 0p+1 ⇒ ∑ni=1 ε̂i = 0 et ∑ni=1 ε̂i xij = 0 ∀j = 1, ..., p ;
⇒ Cov(ε̂, x·j ) = 0

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Écarts au modèle : Les résidus ε̂i

Soit ŷi est appelé la valeur prédite L’écart de la valeur observée yi à

par le modèle, alors la valeur ŷi prédite par le modèle
p
est appelé le résidu, notée ε̂i :
ŷi = βb0 + ∑ βbj xij
j=1
ε̂i = yi − ŷi

En notant xi· = (1, xi1 , . . . , xip ), la En notant Ŷ > = (ŷ1 , ŷ2 , . . . , ŷn ) et
valeur prédite ŷi s’écrit ε̂ > = (ε̂1 , ε̂2 , . . . , ε̂n ), on a

ŷi = xi· βb Ŷ = X βb et ε̂ = Y − Ŷ

Conséquences de la MCO :
X > ε̂ = 0p+1 ⇒ ∑ni=1 ε̂i = 0 et ∑ni=1 ε̂i xij = 0 ∀j = 1, ..., p ;
⇒ Cov(ε̂, x·j ) = 0
Par construction du modèle, la corrélation entre le vecteur des
résidus d’une part et chacun des prédicteurs est nulle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 17 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Cas des données centrées :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Cas des données centrées :

Notons que le point moyen (x, y) vérifie parfaitement le modèle :

y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)

1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n

⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b

εi

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Cas des données centrées :

Notons que le point moyen (x, y) vérifie parfaitement le modèle :

y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)

1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n

⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b

εi

D’un point de vue pratique, c’est très souvent avantageux de

centrer les variables et même de les réduire.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Cas des données centrées :

Notons que le point moyen (x, y) vérifie parfaitement le modèle :

y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)

1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n

⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b

εi

D’un point de vue pratique, c’est très souvent avantageux de

centrer les variables et même de les réduire.
On obtient des variables centrées qui vérifie exactement le même
modèle et seulement la constante qui va disparaitre.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Cas des données centrées :

Notons que le point moyen (x, y) vérifie parfaitement le modèle :

y = βb0 + βb1 x1 + βb2 x2 + · · · + βbp xp (9)

1 n 1
avec y = ∑i=1 yi et xj = ∑ni=1 xij , j = 1, · · · , p
n n

⇒ yi − y = βb1 (xi1 − x1 ) + βb2 (xi2 − x2 ) + · · · + βbp (xip − xp ) + b

εi

D’un point de vue pratique, c’est très souvent avantageux de

centrer les variables et même de les réduire.
On obtient des variables centrées qui vérifie exactement le même
modèle et seulement la constante qui va disparaitre.
Quand on centre les données, on obtient les mêmes coefficients
donc ça c’est une propriété tout à fait importante qui a une grande
valeur d’usage.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 18 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Estimation de σ 2

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Estimation de σ 2

Le paramètre σ 2 est défini par

h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Estimation de σ 2

Le paramètre σ 2 est défini par

h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2

En prenant ŷi = xi· βb comme estimateur de E [yi ], il apparaît naturel

d’estimer σ 2 par

2
1 n
2 ∑ni=1 (b
εi ) SCR
b2 =
σ ∑ (yi − ŷ i ) = = (10)
n − (p + 1) i=1 n−p−1 n−p−1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Estimation de σ 2

Le paramètre σ 2 est défini par

h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2

En prenant ŷi = xi· βb comme estimateur de E [yi ], il apparaît naturel

d’estimer σ 2 par

2
1 n
2 ∑ni=1 (b
εi ) SCR
b2 =
σ ∑ (yi − ŷ i ) = = (10)
n − (p + 1) i=1 n−p−1 n−p−1

σb 2 est un estimateur sans biais de σ 2

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Estimation de σ 2

Le paramètre σ 2 est défini par

h i
σ 2 = V (εi ) = V (yi ) = E (yi − E [yi ])2

En prenant ŷi = xi· βb comme estimateur de E [yi ], il apparaît naturel

d’estimer σ 2 par

2
1 n
2 ∑ni=1 (b
εi ) SCR
b2 =
σ ∑ (yi − ŷ i ) = = (10)
n − (p + 1) i=1 n−p−1 n−p−1

σb 2 est un estimateur sans biais de σ 2

La perte de p + 1 degrés de liberté dans l’expression de σ b 2 est le
"coût" de l’estimation de β0 , β1 , . . . , βp nécessaire pour obtenir les
ŷi .
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 19 / 39
Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Table d’analyse de la variance (ANOVA) :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 20 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Table d’analyse de la variance (ANOVA) :

On a la formule "classique" de l’analyse de la variance qui donne

la décomposition suivante :
n n n
∑ (yi − ȳn )2 = ∑ (ŷi − ȳn )2 + ∑ (yi − ŷi )2
i=1 i=1 i=1

variabilité totale = variabilité expliquée + variabilité résiduelle

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 20 / 39

Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

Table d’analyse de la variance (ANOVA) :

On a la formule "classique" de l’analyse de la variance qui donne

la décomposition suivante :
n n n
∑ (yi − ȳn )2 = ∑ (ŷi − ȳn )2 + ∑ (yi − ŷi )2
i=1 i=1 i=1

variabilité totale = variabilité expliquée + variabilité résiduelle

On complète souvent l’étude en construisant la table d’ANOVA :
Source de variation Somme des carrés ddl carré moyen F
2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n

p
ŷi − ȳn = ∑ β̂j (xij − x̄j )
j=1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 20 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Sommaire

1 Modèle de régression linéaire multiple

2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

3 Test d’hypothèses et intervalle de confiance pour les paramètres βj

4 Prévision d’une valeur ultérieure

5 Sélection de variables

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 21 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Hypothèse de normalité des erreurs

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Hypothèse de normalité des erreurs

On veux maintenant tester la nullité des coefficients βj du modèle

de régression.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Hypothèse de normalité des erreurs

On veux maintenant tester la nullité des coefficients βj du modèle

de régression.
Si β1 = . . . = βp = 0 alors les prédicateurs ne servent à rien !

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Hypothèse de normalité des erreurs

On veux maintenant tester la nullité des coefficients βj du modèle

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Hypothèse de normalité des erreurs

On veux maintenant tester la nullité des coefficients βj du modèle

de régression.
Si β1 = . . . = βp = 0 alors les prédicateurs ne servent à rien !
Pour faire ce test, nous allons comparer la part de la variabilité
expliquée par le modèle SCE avec la part de la variabilité
résiduelle SCR.
Il est nécessaire de faire une hypothèse supplémentaire :
(H3)’ : Hypothèse de normalité des erreurs

ε ∼ N 0n , σ 2 In

(11)
ou de manière équivalente :

Y ∼ N Xβ , σ 2 In

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 22 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 :Test de signification du modèle (Test global)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 :Test de signification du modèle (Test global)

Typiquement, on commence par tester :

H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 :Test de signification du modèle (Test global)

Typiquement, on commence par tester :

H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".

SCR
On sait que E = σ 2.
n−p−1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 :Test de signification du modèle (Test global)

Typiquement, on commence par tester :

H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".

SCR
On sait que E = σ 2.
n−p−1

SCE
D’autre part, si H0 est vraie, on peut montrer que E = σ2
p

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 :Test de signification du modèle (Test global)

Typiquement, on commence par tester :

H0 : ”β1 = . . . = βp = 0 " contre H1 : ”∃j ∈ {1, . . . , p}, βj 6= 0 ".

SCR
On sait que E = σ 2.
n−p−1

SCE
D’autre part, si H0 est vraie, on peut montrer que E = σ2
p
On utilise la statistique suivante :
2
SCE/p ∑n (ŷi − ȳn ) /p
Fobs = = n i=1
SCR/(n − p − 1) ∑i=1 (yi − ŷi )2 /(n − p − 1)

Sous H0 , la statistique Fobs est distribuée selon une loi de Fisher à p et

n − p − 1 degrés de libertés.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 23 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 : Test de signification du modèle (Règle de décision)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 24 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 1 : Test de signification du modèle (Règle de décision)

On rejette H0 avec un risque α si Fobs ≥ f1−α (p, n − p − 1) où

f1−α (p, n − p − 1) est le fractile d’ordre 1 − α de la loi F(p, n − p − 1).

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 24 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On désire maintenant tester :

H0 : ”βj = 0” contre H1 : ”βj 6= 0”

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On désire maintenant tester :

H0 : ”βj = 0” contre H1 : ”βj 6= 0”

b2
Nouvelles propriétés pour les estimateurs βbj et σ

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On désire maintenant tester :

H0 : ”βj = 0” contre H1 : ”βj 6= 0”

b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On désire maintenant tester :

H0 : ”βj = 0” contre H1 : ”βj 6= 0”

b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
(a) βbj ∼ N βj , σ 2 cjj où cjj signifie le (j+1)-ième terme diagonal de la

−1
matrice X T X ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On désire maintenant tester :

H0 : ”βj = 0” contre H1 : ”βj 6= 0”

b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
(a) βbj ∼ N βj , σ 2 cjj où cjj signifie le (j+1)-ième terme diagonal de la

−1
matrice X T X ;
b2
(n−p−1)σ
(b) σ2
∼ χ 2 (n − p − 1) ;

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On désire maintenant tester :

H0 : ”βj = 0” contre H1 : ”βj 6= 0”

b2
Nouvelles propriétés pour les estimateurs βbj et σ
Sous les hypothèses (A1’)-(A3’), on a :
(a) βbj ∼ N βj , σ 2 cjj où cjj signifie le (j+1)-ième terme diagonal de la

−1
matrice X T X ;
(n−p−1)σb2
(b) σ2
∼ χ 2 (n − p − 1) ;
(c) b 2 sont indépendants
βbj et σ

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 25 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 26 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On déduit alors des propriétés (a)-(c) que

βj −βj
√
b
σ 2 cjj βbj − βj
q = √ ∼ T(n − p − 1)
b2
σ σb cjj
σ2

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 26 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Étape 2 : Test de significativité d’un seul paramètre βj

On déduit alors des propriétés (a)-(c) que

βj −βj
√
b
σ 2 cjj βbj − βj
q = √ ∼ T(n − p − 1)
b2
σ σb cjj
σ2

On utilisera donc la statistique suivante :

βbj − βj
Tn = √
σb cjj

qui est distribuée selon une loi de Student à n − p − 1 degrés de

libertés.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 26 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 27 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1

Sous l’hypothèse H0 : ”βj = 0” , on a

βbj
Tn = √ ∼ T(n − p − 1)
σb cjj

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 27 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1

Sous l’hypothèse H0 : ”βj = 0” , on a

βbj
Tn = √ ∼ T(n − p − 1)
σb cjj

Pour une hypothèse alternative H1 : ”βj 6= 0” bilatérale, on rejette

H0 avec un risque 0 ≤ α ≤ 1 si

|t| ≥ t1−α/2 (n − p − 1)

où t est la réalisation de Tn et t1−α/2 (n − p − 1) est le fractile d’ordre

1 − α/2 de la loi T(n − p − 1).

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 27 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

regarder la p-valeur aussi appelée niveau de signification du test : si
p-valeur ≤ α, on rejette H0 .
Dans le cas d’un test bilatéral (H1 : ”β1 6= 0”), on a :
p-valeur = P (|Tn | > |t|/H0 )

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

On rejette H0 si p-valeur ≤ α.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj

On rejette H0 si 0 n’appartient pas à cet intervalle.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj

On rejette H0 si 0 n’appartient pas à cet intervalle.

Rejeter H0 signifie :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj

On rejette H0 si 0 n’appartient pas à cet intervalle.

Rejeter H0 signifie :
que le coefficient βj est significativement non nul,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Test de H0 contre H1 à l’aide la p-valeur

Pour réaliser ce test, on peut également :

On rejette H0 si p-valeur ≤ α.
Construire l’intervalle de confiance de βj au niveau de confiance 1 − α :
h √ i
IC1−α (βj ) = βbj ± t1−α/2 (n − p − 1)σ
b cjj

On rejette H0 si 0 n’appartient pas à cet intervalle.

Rejeter H0 signifie :
que le coefficient βj est significativement non nul,
que βj s’interprète comme le taux d’accroissement moyen de y en
fonction d’une variation de xj lorsque tous les autres régresseurs
x1 , . . . , xj−1 , xj+1 , . . . , xp restent fixés.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 28 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Cela revient à comparer deux modèles :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Cela revient à comparer deux modèles :

1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Cela revient à comparer deux modèles :

1 le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
2 le modèle réduit à p − q regresseurs (modèle 0 ) pour lequel on
évalue la somme des carrés des résidus SCR0 .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Cela revient à comparer deux modèles :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Cela revient à comparer deux modèles :

La zone de rejet associée à cette statistique de test est donc :

R =]f1−α (q, n − p − 1), +∞[

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 29 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Contribution jointe d’un ensemble de régresseurs

On peut maintenant tester la nullité de q ≤ p paramètres :

H0 : ”β1 = . . . = βq = 0” contre H1 : ”∃j ∈ {1, . . . , q}, βj 6= 0”.

Cela revient à comparer deux modèles :

La zone de rejet associée à cette statistique de test est donc :

R =]f1−α (q, n − p − 1), +∞[

Rejeter H signifie qu’au

Pr. LALAOUI ([email protected])moins
Régression unmultiple
linéaire des q coefficients est non nul.
2023/2024 29 / 39
Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Le coefficient de détermination R2 :

Source de variation Somme des carrés ddl carré moyen F

2 SCE/p
régression (expliquée) SCE = ∑ni=1 (ŷi − ȳn )2 p 1
p ∑ni=1 (b
yi − ȳn ) SCR/(n−p−1)
Résiduelle SCR = ∑ni=1 (yi −byi )2 n − (p + 1) 1 n
n−p−1 ∑i=1 (yi −byi )2
Totale SCT = ∑ni=1 (yi − ȳn )2 n−1 1
∑n (y − ȳ )2
n−1 i=1 i n

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Le coefficient de détermination R2 :

Source de variation Somme des carrés ddl carré moyen F

On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de mesurer

l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = = 1−
SCT SCT

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Le coefficient de détermination R2 :

Source de variation Somme des carrés ddl carré moyen F

On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de mesurer

l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = = 1−
SCT SCT

Le coefficient R2 donne la proportion de variabilité de y qui est expliquée par le

modèle.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Le coefficient de détermination R2 :

Source de variation Somme des carrés ddl carré moyen F

On retrouve la propriété fondamentale SCT = SCE + SCT qui permet de mesurer

l’ajustement du modèle par le coefficient de détermination
SCE SCR
R2 = = 1−
SCT SCT

Le coefficient R2 donne la proportion de variabilité de y qui est expliquée par le

modèle.
Plus le R2 est proche de 1, meilleure est l’adéquation du modèle aux données.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 30 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

SCR
1 Le coefficient R2 = 1 − SCT

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

SCR
1 Le coefficient R2 = 1 − SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le modèle
augmente,
permet de comparer des modèles ayant le même nombre de
variables.
On peut montrer que R2 = [ρ(ŷ, y)]2 .
2 Le coefficient R2ajuste = 1 − SCR/(n−p−1)
SCT/(n−1)
Le R au carré ajusté (ou coefficient de détermination ajusté) est
utilisé dans une régression multiple pour voir le degré d’efficacité
des variables indépendantes pour expliquer la variable dépendante.
En termes plus simples, le R au carré ajusté nous indique quel
pourcentage de la variation de la variable dépendante est expliqué
collectivement par toutes les variables indépendantes.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 31 / 39

Test d’hypothèses et intervalle de confiance pour les paramètres
βj

Les critères R2 et R2 ajusté :

Sommaire

1 Modèle de régression linéaire multiple

2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

3 Test d’hypothèses et intervalle de confiance pour les paramètres βj

4 Prévision d’une valeur ultérieure

5 Sélection de variables

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 32 / 39

Prévision d’une valeur ultérieure

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39

Prévision d’une valeur ultérieure

On désire prévoir à l’aide du modèle la valeur de la variable y pour des

observations futures x1,0 , . . . , xp,0 des p variables explicatives.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39

Prévision d’une valeur ultérieure

On désire prévoir à l’aide du modèle la valeur de la variable y pour des

observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Posons T
x0 = 1, x1,0 , . . . , xp,0 ∈ Rp+1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39

Prévision d’une valeur ultérieure

On désire prévoir à l’aide du modèle la valeur de la variable y pour des

observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Posons T
x0 = 1, x1,0 , . . . , xp,0 ∈ Rp+1

D’après le modèle on a :
y0 = x0T β + ε0
et la prédiction est :
[
y0 = E
b [y0 ] = x0T βb

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39

Prévision d’une valeur ultérieure

On désire prévoir à l’aide du modèle la valeur de la variable y pour des

observations futures x1,0 , . . . , xp,0 des p variables explicatives.
Posons T
x0 = 1, x1,0 , . . . , xp,0 ∈ Rp+1

D’après le modèle on a :
y0 = x0T β + ε0
et la prédiction est :
[
y0 = E
b [y0 ] = x0T βb

y0 − y0 et on peut montrer que sous les

L’erreur de prédiction est définie par b
hypothèses du modèle (incluant l’hypothèse de normalité), on a :
−1
y0 − y0 ∼ N 0, σ 2 1 + x0T X T X
b x0

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 33 / 39

Prévision d’une valeur ultérieure

Intervalle de prédiction :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39

Prévision d’une valeur ultérieure

Intervalle de prédiction :

On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39

Prévision d’une valeur ultérieure

Intervalle de prédiction :

On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0

On peut montrer que :

y0 − ŷ0
q ∼ T(n − p − 1)
b 1 + x0T (X T X)−1 x0
σ

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39

Prévision d’une valeur ultérieure

Intervalle de prédiction :

On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0

On peut montrer que :

y0 − ŷ0
q ∼ T(n − p − 1)
b 1 + x0T (X T X)−1 x0
σ

On utilise ce résultat pour construire un intervalle de prédiction pour y0 , c’est à

dire l’intervalle [A, B] tel que
P (A ≤ y0 ≤ B) = 1 − α

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39

Prévision d’une valeur ultérieure

Intervalle de prédiction :

On en déduit que :
y0 − ŷ0
q ∼ N(0, 1)
σ 1 + x0T (X T X)−1 x0

On peut montrer que :

y0 − ŷ0
q ∼ T(n − p − 1)
b 1 + x0T (X T X)−1 x0
σ

On utilise ce résultat pour construire un intervalle de prédiction pour y0 , c’est à

dire l’intervalle [A, B] tel que
P (A ≤ y0 ≤ B) = 1 − α

On en déduit l’intervalle de prédiction pour y0 au niveau de confiance 1 − α

suivant :
q
ŷ0 ± t1−α/2 (n − p − 1)σb 1 + x0T (X T X)−1 X0 (12)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 34 / 39

Prévision d’une valeur ultérieure

Intervalle de confiance :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39

Prévision d’une valeur ultérieure

Intervalle de confiance :

On peut aussi construire un intervalle de confiance de la valeur moyenne

E [y0 ] = x0T β
qui est cette fois un paramètre.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39

Prévision d’une valeur ultérieure

Intervalle de confiance :

On peut aussi construire un intervalle de confiance de la valeur moyenne

E [y0 ] = x0T β
qui est cette fois un paramètre.
On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E [y0 ] ≤ B) = 1 − α

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39

Prévision d’une valeur ultérieure

Intervalle de confiance :

On peut aussi construire un intervalle de confiance de la valeur moyenne

E [y0 ] = x0T β
qui est cette fois un paramètre.
On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E [y0 ] ≤ B) = 1 − α

Pour construire cet intervalle, on montre que :

−1
ŷ0 ∼ N x00 β , σ 2 x0T X T X x0
ŷ0 − x0T β
q ∼ T(n − p − 1)
b x0T (X T X)−1 x0
σ

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39

Prévision d’une valeur ultérieure

Intervalle de confiance :

On peut aussi construire un intervalle de confiance de la valeur moyenne

E [y0 ] = x0T β
qui est cette fois un paramètre.
On va donc chercher l’intervalle aléatoire [A, B] tel que
P (A ≤ E [y0 ] ≤ B) = 1 − α

Pour construire cet intervalle, on montre que :

−1
ŷ0 ∼ N x00 β , σ 2 x0T X T X x0
ŷ0 − x0T β
q ∼ T(n − p − 1)
b x0T (X T X)−1 x0
σ

On en déduit l’intervalle de confiance de E [y0 ] = x0T β suivant :

q
y0 ∓ t1−α/2 (n − p − 1)σb x0T (X T X)−1 x0
b (13)

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 35 / 39

Sélection de variables

Sommaire

1 Modèle de régression linéaire multiple

2 Estimation des paramètres β0 , β1 , β2 , ..., βp et σ 2

3 Test d’hypothèses et intervalle de confiance pour les paramètres βj

4 Prévision d’une valeur ultérieure

5 Sélection de variables

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 36 / 39

Sélection de variables

Sélection de variables :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Sélection de variables :

Il s’agit maintenant de sélectionner parmi les p variables explicatives, les

q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Sélection de variables :

Il s’agit maintenant de sélectionner parmi les p variables explicatives, les

q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Sélection de variables :

Il s’agit maintenant de sélectionner parmi les p variables explicatives, les

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Sélection de variables :

Il s’agit maintenant de sélectionner parmi les p variables explicatives, les

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Sélection de variables :

Il s’agit maintenant de sélectionner parmi les p variables explicatives, les

q ≤ p variables qui donnent le "meilleur" modèle pour prédire y.
Il faut donc :
1 un critère de qualité d’un modèle afin de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
2 une procédure qui permet de choisir parmi tous les modèles, le
meilleur au sens de ce critère. On parle de procédure de choix de
modèle.
Le nombre de modèles à considérer est ∑pq=1 Cpq = 2p − 1. Ce nombre
croît exponentiellement avec p. Par exemple, si p = 30, on devrait
considérer 230 ≈9 modèles...

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Sélection de variables :

Il s’agit maintenant de sélectionner parmi les p variables explicatives, les

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 37 / 39

Sélection de variables

Les critères AIC et BIC :

Ce sont deux critères de vraisemblance pénalisées définis par :
1- Akaike Information Criterion
AlC = −2 ln(L) + 2k

2- Bayesian Information Criterion

BIC = −2 ln(L) + k ln(n)

où L est la vraisemblance maximisée et k est le nombre de paramètres libres

du modèle.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 38 / 39

Sélection de variables

Les critères AIC et BIC :

Ce sont deux critères de vraisemblance pénalisées définis par :
1- Akaike Information Criterion
AlC = −2 ln(L) + 2k

2- Bayesian Information Criterion

BIC = −2 ln(L) + k ln(n)

où L est la vraisemblance maximisée et k est le nombre de paramètres libres

du modèle.
En régression multiple, il y a q + 2 paramètres β0 , β1 , . . . , βq , σ et une
equation donc k = q + 1 paramètres libres.

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 38 / 39

Sélection de variables

Les critères AIC et BIC :

Ce sont deux critères de vraisemblance pénalisées définis par :
1- Akaike Information Criterion
AlC = −2 ln(L) + 2k

2- Bayesian Information Criterion

BIC = −2 ln(L) + k ln(n)

où L est la vraisemblance maximisée et k est le nombre de paramètres libres

du modèle.
En régression multiple, il y a q + 2 paramètres β0 , β1 , . . . , βq , σ et une
equation donc k = q + 1 paramètres libres.
la vraisemblance est définie comme la densité conjointe des yi et son
expression est

2
1 1 T
L β,σ = n/2
exp − 2 (Y − Xβ ) (Y − Xβ )
(2πσ 2 ) 2σ
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 38 / 39
Sélection de variables

Écriture simplifiée des critères AIC et BIC en régression multiple :

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39

Sélection de variables

Écriture simplifiée des critères AIC et BIC en régression multiple :

Les estimateurs
−1 T du maximum de vraisemblance sont
β̃ = X T X X Y et σ̃ 2 = SCR
n .

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39

Sélection de variables

Écriture simplifiée des critères AIC et BIC en régression multiple :

Les estimateurs
−1 T du maximum de vraisemblance sont
β̃ = X T X X Y et σ̃ 2 = SCRn .
La vraisemblance maximisée est :

2
1 SCR
L = L β̃ , σ̃ = n/2
exp − 2
(2π σ̃ 2 ) 2σ̃

−2 ln(L) = n ln 2π σ̃ 2 + 1

Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39

Sélection de variables

Écriture simplifiée des critères AIC et BIC en régression multiple :

Les estimateurs
−1 T du maximum de vraisemblance sont
β̃ = X T X X Y et σ̃ 2 = SCRn .
La vraisemblance maximisée est :

2
1 SCR
L = L β̃ , σ̃ = n/2
exp − 2
(2π σ̃ 2 ) 2σ̃

−2 ln(L) = n ln 2π σ̃ 2 + 1

Écriture simplifiée en régression multiple :

2π
AIC = n ln(SCR) + 2k + n(1 + ln( ))
n
BIC = n ln(SCR) + (k − n) ln(n) + n(1 + ln(2π))
Ces critères doivent être minimisés dans une procédure de choix
de modèle.
Pr. LALAOUI ([email protected]) Régression linéaire multiple 2023/2024 39 / 39

Vous aimerez peut-être aussi

Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
6 pages
Projet - Régression Linéaire Multiple (MKDiallo - OHaidara - MBKa)
Pas encore d'évaluation
Projet - Régression Linéaire Multiple (MKDiallo - OHaidara - MBKa)
15 pages
Cours12 Diagnostique de La Multicolinéairité
Pas encore d'évaluation
Cours12 Diagnostique de La Multicolinéairité
52 pages
Multicolinéarité et Modèle Optimal
Pas encore d'évaluation
Multicolinéarité et Modèle Optimal
23 pages
Controverse sur la Mémoire Eidétique
100% (1)
Controverse sur la Mémoire Eidétique
5 pages
Ridge
Pas encore d'évaluation
Ridge
39 pages
L'initiative Royale de l'ATLANTIQUE
Pas encore d'évaluation
L'initiative Royale de l'ATLANTIQUE
2 pages
Économie Marocaine: Histoire et Défis
Pas encore d'évaluation
Économie Marocaine: Histoire et Défis
25 pages
Traduire Alice : Défis et Stratégies
Pas encore d'évaluation
Traduire Alice : Défis et Stratégies
5 pages
Compétitivité du Maroc en Afrique
Pas encore d'évaluation
Compétitivité du Maroc en Afrique
27 pages
LASSO - Regressions FR
Pas encore d'évaluation
LASSO - Regressions FR
51 pages
Détection et Solutions à la Multicolinéarité
Pas encore d'évaluation
Détection et Solutions à la Multicolinéarité
7 pages
Livre Web - La Façade Atlantique de L'afrique Un Espace Géopolitique en Construction - 0 - 0
Pas encore d'évaluation
Livre Web - La Façade Atlantique de L'afrique Un Espace Géopolitique en Construction - 0 - 0
10 pages
5.1 - Diaporama Loi SDL JML
Pas encore d'évaluation
5.1 - Diaporama Loi SDL JML
17 pages
Modèle linéaire : principes et applications
Pas encore d'évaluation
Modèle linéaire : principes et applications
155 pages
Perspectives Économiques en Afrique 2017
100% (1)
Perspectives Économiques en Afrique 2017
344 pages
Métamorphisme et Tectonique des Plaques
Pas encore d'évaluation
Métamorphisme et Tectonique des Plaques
10 pages
Réformes des cours d'appel administratives
Pas encore d'évaluation
Réformes des cours d'appel administratives
10 pages
Rapport Etablissements Entreprises Publics FR
Pas encore d'évaluation
Rapport Etablissements Entreprises Publics FR
169 pages
Introduction à l'Économétrie
Pas encore d'évaluation
Introduction à l'Économétrie
103 pages
Droit Foncier
Pas encore d'évaluation
Droit Foncier
40 pages
Initiative Atlantique : Développement Africain
Pas encore d'évaluation
Initiative Atlantique : Développement Africain
1 page
Réforme de la comptabilité nationale au Maroc
Pas encore d'évaluation
Réforme de la comptabilité nationale au Maroc
3 pages
Introduction à la régression linéaire multiple
Pas encore d'évaluation
Introduction à la régression linéaire multiple
145 pages
2.modele de Regression Multiple Avec R
Pas encore d'évaluation
2.modele de Regression Multiple Avec R
53 pages
Transparence Budgétaire au Maroc
Pas encore d'évaluation
Transparence Budgétaire au Maroc
21 pages
Théorie des Jeux pour Étudiants en Économie
Pas encore d'évaluation
Théorie des Jeux pour Étudiants en Économie
30 pages
Éléments radioactifs : avantages et dangers
Pas encore d'évaluation
Éléments radioactifs : avantages et dangers
9 pages
N24-33-Réponse Et Résilience L'impact Et La Gestion Du Séisme d'Al-Haouz.
100% (1)
N24-33-Réponse Et Résilience L'impact Et La Gestion Du Séisme d'Al-Haouz.
15 pages
Régression Linéaire: Guide Pratique
Pas encore d'évaluation
Régression Linéaire: Guide Pratique
130 pages
Introduction à la théorie des jeux sportifs
Pas encore d'évaluation
Introduction à la théorie des jeux sportifs
32 pages
Gestion des Conflits en Réassurance
Pas encore d'évaluation
Gestion des Conflits en Réassurance
27 pages
Gouvernance Locale et Développement Durable
Pas encore d'évaluation
Gouvernance Locale et Développement Durable
73 pages
Football marocain : enjeux financiers et résultats
100% (1)
Football marocain : enjeux financiers et résultats
17 pages
Évaluation des Politiques Publiques au Maroc
100% (3)
Évaluation des Politiques Publiques au Maroc
96 pages
Les Mécanismes Traditionnels de Résolution Des Conflits
Pas encore d'évaluation
Les Mécanismes Traditionnels de Résolution Des Conflits
31 pages
Sponsoring Sportif et Héritage Juridique
Pas encore d'évaluation
Sponsoring Sportif et Héritage Juridique
391 pages
Évolution de la gouvernance territoriale au Maroc
Pas encore d'évaluation
Évolution de la gouvernance territoriale au Maroc
20 pages
Memoire
Pas encore d'évaluation
Memoire
40 pages
Investissements marocains en Afrique subsaharienne
Pas encore d'évaluation
Investissements marocains en Afrique subsaharienne
16 pages
Économie marocaine : potentiel et défis
Pas encore d'évaluation
Économie marocaine : potentiel et défis
41 pages
Impact de la Mondialisation sur la Culture
100% (2)
Impact de la Mondialisation sur la Culture
25 pages
La Charte de Déconcentration-5
Pas encore d'évaluation
La Charte de Déconcentration-5
44 pages
Évolution de l'assurance au Maroc
Pas encore d'évaluation
Évolution de l'assurance au Maroc
3 pages
Notions de Logique Exercices Non Corriges 1
Pas encore d'évaluation
Notions de Logique Exercices Non Corriges 1
1 page
L Arbitrage Et La Médiation Des Marches Publics
Pas encore d'évaluation
L Arbitrage Et La Médiation Des Marches Publics
4 pages
Exposé
Pas encore d'évaluation
Exposé
40 pages
Justice arbitrale vs justice étatique
Pas encore d'évaluation
Justice arbitrale vs justice étatique
5 pages
Liste Des Verbes D Evaluation en e Conomie Ge Ne Rale Et Eoae 1 PDF
Pas encore d'évaluation
Liste Des Verbes D Evaluation en e Conomie Ge Ne Rale Et Eoae 1 PDF
2 pages
Déterminants de l'investissement privé au Maroc
Pas encore d'évaluation
Déterminants de l'investissement privé au Maroc
38 pages
Transport collectif et immobilier à Fès
Pas encore d'évaluation
Transport collectif et immobilier à Fès
3 pages
Régionalisation au Maroc : Défis et Modèles
Pas encore d'évaluation
Régionalisation au Maroc : Défis et Modèles
44 pages
Régression Multiple - Partie 1 Et 2
Pas encore d'évaluation
Régression Multiple - Partie 1 Et 2
36 pages
Ch3 PDF
Pas encore d'évaluation
Ch3 PDF
45 pages
Introduction à la régression linéaire multiple
Pas encore d'évaluation
Introduction à la régression linéaire multiple
12 pages
EML ISE2 Chap3
Pas encore d'évaluation
EML ISE2 Chap3
9 pages
9 - Régression Linéaire Multiple
Pas encore d'évaluation
9 - Régression Linéaire Multiple
35 pages
Régression Linéaire Multiple Simplifiée
Pas encore d'évaluation
Régression Linéaire Multiple Simplifiée
40 pages
Multiples
Pas encore d'évaluation
Multiples
20 pages
Reression Multiple
Pas encore d'évaluation
Reression Multiple
111 pages