R ÉGRESSION LINÉAIRE MULTIPLE
Statistiques - 4ème année Data Science - A.U. 2020/2021
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Plan
1 Introduction
2 Modèle
3 Estimation des paramètres
4 Qualité d’ajustement
5 Etude des résidus
6 Commande R et interprétation
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Objectif
A la suite de la régression linéaire simple, ce cours introduit le modèle linéaire
multidimensionnel dans lequel une variable quantitative Y est expliquée,
modélisée, par plusieurs variables quantitatives Xj .
Après avoir expliciter les hypothèses nécessaires et les termes du modèle, les notions
d’estimation des paramètres du modèle (moindres carrés) sont discutées de même
que les outils de diagnostics (graphe des résidus, colinéarité).
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Introduction
Etudier la liaison entre une variable quantitative à expliquer Y et une suite
de variables quantitatives explicatives X1 , . . . , Xk .
Modèle
Y = β0 + β1 X1 + · · · + βk Xk + ε
où βj = paramètres fixes(mais inconnus)
ε = terme aléatoire de moyenne 0 et d’écart-type σ
Vocabulaire :
Y X1 , X2 , . . . , Xk
Variable à expliquer Variables explicatives
Variable dépendante Variables indépendantes
Variable endogène Variables exogènes
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Exemples
Expliquer en fonction
• Superfice
• Standing
Prix d’un appartement • Quartier
• Sécurité
• Proximité de commerce
• Cylindrée
• Taille
Prix d’une voiture • Vitesse maximale
• Origine
• Niveau de finition
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Modèle
Nous considérons que yi est la réalisation de la variable aléatoire Yi définie par:
Yi = β0 + β1 xi1 + · · · + βk xik + εi
où εi est une variable aléatoire de moyenne 0 et d’éart-type σ .
☛ Les variables aléatoires ε1 , . . . , εn sont supposées êtres distribuées selon des lois
normales.
☛ Elles sont supposées non corrélées entre elles.
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Exemple: Données véhicules
n = 31 véhicules pour lesquels on dispose de:
• Consommation • Prix • Cylindrée • Puissance • Poids (Kg)
(L/100Km) (F r.) (cm3 ) (KW ) (Kg)
Objectif:
Prédire la consommation (Y ) en fonction des différents paramètres
Modèle de régression à estimer
Cons = β0 + β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ε
Modèle estimé sur un échantillon
[ = b0 + b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Cons
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Modèle
Ecriture du modèle: Sur un échantillon de n observations i.i.d
Y1 = β0 + β1 x11 + · · · + βk x1k + ε1
Y2 = β0 + β1 x21 + · · · + βk x2k + ε2
.. ..
. .
Yn = β0 + β1 xn1 + · · · + βk xnk + εn
Ecriture matricielle :
Y = X β + ε
n×1 n × (k + 1) (k + 1) × 1 n×1
Y1 1 x11 x12 . . . x1k β0 ε1
. . .. .. ..
. ; X = .. .. ; β = ... ; ε = ..
Y =
. . . . . .
Yn 1 xn1 xn2 . . . xnk βk εn
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
Modèle
2
L’ensemble des équations associées à chacune des observations, pour
i = 1, . . . , n, s’écrit matriciellement:
Y =X β+ε
2
Les hypothèses faites sur les termes aléatoires ε1 , . . . , εn s’écrivent:
E[ε] = 0 ; E[ε ε′ ] = σ 2 In
2
Enfin, on suppose
rang(X) = k + 1
Remarque:
Pour que les calculs soient possibles, il faut éviter qu’une(ou plusiuers) des vari-
abes explicatives soit une combinaison linéaire exacte des autres variables ex-
plicatives.
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
10
Estimation des paramètres
β0 , β1 , . . . , βk
Nous cherchons les estimations β̂0 , β̂1 , . . . , β̂k des paramètres β0 , β1 , . . . , βk
permettant de reconstituer au mieux les données yi à partir des observations des k
variables X 1 , . . . , X k .
Critère des moindres carrés
Déterminer β̂0 , β̂1 , . . . , β̂k minimisant
n
X
(yi − β0 − β1 xi1 − · · · − βk xik )2
i=1
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
11
Estimation des paramètres
βb = (X ′ X)−1 X ′ y
βb estimation des moindres carrés de β
yb = X βb vecteur des yi
e = y − yb vecteur des erreurs
Remarque:
Cette expression est importante, elle montre qu’il est nécessaire d’inverser la
matrice X ′ X . Les problèmes pratiques rencontrés en régression (par exemple la
multicolinéarité) sont liés à cette inversion.
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
12
Exemple
Modèle de régression à estimer
Cons = β0 + β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ε
Modèle estimé sur un échantillon
[ = b0 + b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Cons
Commande R:> lm
Modèle estimé
[ = 2.46 + 0.00002 Prix − 0.0005 Cylind
Cons
+0.0249 Puiss + 0.004 Poids
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
13
Qualité d’ajustement
n
X n
X n
X
2 2
(yi − y) = (ŷi − y) + (yi − ŷi )2
|i=1 {z } |i=1 {z } |i=1 {z }
SCT = SCE + SCR
Somme des Somme des Somme des
carrés totalee carrés expliquée carrés résiduelle
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
14
Qualité d’ajustement
Coefficient de détermination:
SCE
R2 =
SCT
◗ Interprétation: Part de la variabilité de Y expliquée par le modèle de régression
linéaire multiple.
Remarque:
R2 est en fonction du nombre des variables explicatives dans le modèle.
p ↗ =⇒ R2 ↗
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
15
Exemple
Modèle estimé
[ = 2.46 + 0.00002 Prix − 0.0005 Cylind + 0.0249 Puiss + 0.004 Poids
Cons
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
16
Vérification de la normalité des résidus
➺ histogramme =⇒ la distribution doit être unimodale et symétrique
autour de 0.
➺ Test de normalité (Shapiro Wilkis, Kolmogrov-Smirnov,...) mais souvent
tests peu puissants (peu aptes à rejeté H0 .
➺ Droite de Henry =⇒ conforme les quantiles théoriques de la loi normale
et la istribution cumulée estimée sur les données.
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
17
Vérification de l’homoscédasticité des résidus
Les résidus sont dit homoscédastiques si leur dispersion est homogène et ne dépend
pas des valeurs de la variable explicative Xj ( et donc pas non plus des valeurs
prédites).
On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe
des résidus.
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
18
Fonction R à utiliser
Principales fonctions génériques permettant d’extraire des informations d’objet qui
résulte d’une analyse.
➤ print(): retourne un résumé succint de l’analyse
➤ summary(): retourne un résumé détaillé de l’analyse
➤ coef(): retourne les coefficients estimés
➤ residuals(): retourne les résidus
➤ fitted(): retourne les valeurs ajustées par le modèle
➤ AIC(): calcule le critère d’information d’Akaike
➤ plot(): graphique adapté à l’analyse. Résidus du modèle pour
modélisation
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
19
Pour ajuster un modèle linéaire gaussien
yi = Xβ + εi
> modele<-lm(y ∼ x1 + x2 + x3)
ou
> modele<-lm(y ∼ ., data=dataframe)
Pour voir les principales statistiques du modèle
> summary(modele)
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
20
On peut valider la normalité des résidus par la méthode:
Visualisation de la droite de Henry
qqnorm(resid(res));qqline(resid(res));
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
21
Test de normalité des résidus
➤ Shapiro-Wilk normality test
> [Link](resid(res))
> data: resid(res)
> W=0.9951 , p-value=0.3684
=⇒ La p-value est supérieure au seuil et on ne peut pas donc rejeter l’hypothèse H0 .
Les données sont donc compatibles avec une distribution normale.
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
22
Vérification de l’homoscédasticité des résidus
Vérifier l’homoscédasticité des résidus en vérifiant visuellement que le nuage de
point est bien épars de manière symétrique autour de 0.
> plot(res$[Link],res$residuals,
+ xlab="Valeurs prédites par le modèle",
+ ylab="Résidus",pch=16,cex=0.75,col="blue")
@UP-Maths Régression multiple Statistiques
Introduction Modèle Estimation des paramètres Qualité d’ajustement Etude des résidus Commande R et interprétation
23
@UP-Maths Régression multiple Statistiques