Cours : Analyse de Données
Leçon 03
Régression linéaire multiple
Commandant A. ROUIGUEB 1
Contenu
• Modèle
• Estimation des paramètres
• Propriétés
Commandant A. ROUIGUEB 2
Régression linéaire multiple
Généralisation des résultats précédents au cas plus intéressant où l'on cherche à
expliquer une variable Y par un ensemble de variables X.
Y variable que l'on veut relier à p variables X par le modèle linéaire :
Y =b0 +b1X1 +b2X2 + .....+ bpXp + e
On cherche à estimer les p+1 coefficients 0, 1,...., p de façon à minimiser
l’erreur commise (e.g somme carrés des 'erreur ) .
N
ei
2
i1
3
Modèle linéaire dee regression multiple
Interprétation géométrique
Le modèle général définit un hyperplan de dimension p+1. Nous
illustrons le cas p=2.
b0+b1X1,i+b2X2,i
yi : observation
y
b0
ei
x2
(x1,i, x2,i)
x1
Modèle linéaire multiple
Formulation matricielle,
p variables explicatives et N observations
b0
y1 1 x1,1 x1, p e1
b1
y N 1 x1, N x N , p eN
b p
y XB e
emp,16-18-2014 5
Solution optimale au sense de MCO
Solution optimale: les coefficients estimés
ˆ T
B ( X X)
1 T où Bˆ [bˆ , bˆ , ...,bˆ ]
X Y 0 1 p
SCT = SCE + SCR
N-1 N-(p+1) p
(Y Y ) (Y -
T
Y ) ˆ
(Y Y) (Y - Yˆ) ˆ ˆT
(Y Y ) - Y )
(Y
T
Y X *B
Qualité de regression: Le coefficient de détermination
2
Le coefficient de détermination r
YX
n n
2 2
( yˆi y )
variation expliquée i 1
2
b 1
2
i
( x x ) 2
r r
YX n i 1
2
variation totale n
( y y)
i
2
n i y
i 1
i 1
i 1
y 2
i
n
2 2
rYX correlatio n( y , y^ )
peut être utilisé pour vérifier la validité du modèle
linéaire multiple estimé.
Qualité de
régression linéaire
-Coefficient de détermination
-Tests d’hypothèse
Qualité de la régression
Coefficient de détermination
Le coefficient de détermination r2
r2 = SCR/SCT
Il exprime le pourcentage de la variance de Y expliquée
par le modèle. Il donne une idée globale de
l'ajustement du modèle par rapport à l’échantillon.
Le r2 ajusté se calcule en fonction du r2 :
2 n 1
r 1
a (1 r 2 )
n p 1
Il traduit à la fois la qualité de l’ajustement (liaison
entre Y et les Xi) et la complexité du modèle (nombre de
variables explicatives).
Qualité de la régression
Coefficient de détermination
• Remarques sur le r2
– 0≤ r2 ≤1
– Lorsque le r2 est proche de 1, cela se signifie que la
variable dépendante Y est bien expliquée par les
variables Xi.
– La racine carrée de r2, r, porte le nom de coefficient de
corrélation multiple entre Y et les Xi.
– Lorsque l’on ajoute de nouvelles variables explicatives au
modèle, le r2 augmente (même dans le cas où les
nouvelles variables explicatives n’apportent pas un plus).
=> le r2 ajusté prend en compte la taille de
l’echantillon et le nombre de paramètres.
Qualité de la régression
Test de significativité globale de la régression: Test de Fisher
r2 est limité (pas pratique) notamment si l’échantillon est petit et
le nombre de variable est grand
• Le test global de Fisher
Il permet de répondre à la question : la liaison globale
entre Y et les Xi est-elle significative ?
– Hypothèses
H0: 1 = 2 = ... = p = 0
Y ne dépend pas des variables Xi .
H1: Au moins un coefficient est non nul
Y dépend d’au moins une variable Xi .
Qualité de la régression
test de significativité globale de ficher
Variance expliquée, du modèle
– Statistique utilisée
SCR
MSR p
F
MSE SCE
N p 1 Erreur
Degrés de liberté
- Règle de décision
Avec un risque a, on rejette H0 (H0 : 1 = 2 = ... = p = 0 )
si : a ≥ p-value (p-value calculée avec une Fisher à p et n-p-1 degrés de liberté)
ou
si F_calculé >= F_seuil
(F_seuil: trouvé avec p et n-p-1 degrés de liberté et risque= a
Qualité de la régression : test de significat:
région critique:
Pr
H0 est vraie mais elle est rejetée
p-value
F calculé
F seuil =
13
Il y a autres tests d’hypothèses pour
la vérification des résultats
d’estimation de régression
chaque test a sa propre utilité, il
répond à une question précise
chaque test: ses hypothèses de son
application, sa statistique, et sa règle de
décision
Commandant A. ROUIGUEB 14
Qualité de la régression
Test de Fisher
• Conditions d’application de test de Fisher
Les sont indépendants et suivent la même loi normale
•Remarque:
Ce test fournit un moyen d'apprécier la régression
Il permet de vérifier que Y peut déterminé linéairement (expliquée) par une ou par
plusieurs variables de l’ensemble choisi des variables X.
Rejeter H0 accepter H1 (modèle est pertinent)