0% ont trouvé ce document utile (0 vote)
173 vues15 pages

4-Regréssion Linéaire Multiple

Transféré par

zaidchouimet0
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
173 vues15 pages

4-Regréssion Linéaire Multiple

Transféré par

zaidchouimet0
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Cours : Analyse de Données

Leçon 03
Régression linéaire multiple

Commandant A. ROUIGUEB 1
Contenu

• Modèle
• Estimation des paramètres
• Propriétés

Commandant A. ROUIGUEB 2
Régression linéaire multiple
Généralisation des résultats précédents au cas plus intéressant où l'on cherche à
expliquer une variable Y par un ensemble de variables X.

Y variable que l'on veut relier à p variables X par le modèle linéaire :

Y =b0 +b1X1 +b2X2 + .....+ bpXp + e

On cherche à estimer les p+1 coefficients 0, 1,...., p de façon à minimiser


l’erreur commise (e.g somme carrés des 'erreur ) .
N

 ei
2

i1

3
Modèle linéaire dee regression multiple

Interprétation géométrique
Le modèle général définit un hyperplan de dimension p+1. Nous
illustrons le cas p=2.
b0+b1X1,i+b2X2,i
yi : observation
y
b0

ei

x2
(x1,i, x2,i)
x1
Modèle linéaire multiple
Formulation matricielle,
p variables explicatives et N observations

 b0 
 y1  1 x1,1  x1, p     e1 
         b1   
      
   
 y N  1 x1, N  x N , p     eN 
 b p 
y  XB  e

emp,16-18-2014 5
Solution optimale au sense de MCO
Solution optimale: les coefficients estimés

ˆ T
B  ( X X)
1 T où Bˆ  [bˆ , bˆ , ...,bˆ ]
X Y 0 1 p

SCT = SCE + SCR


N-1 N-(p+1) p

(Y  Y ) (Y -
T
Y ) ˆ
(Y  Y) (Y - Yˆ) ˆ ˆT
(Y  Y ) - Y )
(Y
T

 
Y  X *B
Qualité de regression: Le coefficient de détermination

2
Le coefficient de détermination r
YX
n n

2 2
 ( yˆi  y )
variation expliquée i 1
2
b 1
2
 i
( x  x ) 2

r r 
YX  n  i 1
2
variation totale  n

 ( y  y)
i
2
n  i y
i 1
 i 1 

i 1
y 2
i 
n
2 2
rYX  correlatio n( y , y^ )

peut être utilisé pour vérifier la validité du modèle


linéaire multiple estimé.
Qualité de
régression linéaire
-Coefficient de détermination
-Tests d’hypothèse
Qualité de la régression
Coefficient de détermination
Le coefficient de détermination r2
r2 = SCR/SCT

Il exprime le pourcentage de la variance de Y expliquée


par le modèle. Il donne une idée globale de
l'ajustement du modèle par rapport à l’échantillon.
Le r2 ajusté se calcule en fonction du r2 :
2 n 1
r 1 
a (1  r 2 )
n p 1

Il traduit à la fois la qualité de l’ajustement (liaison


entre Y et les Xi) et la complexité du modèle (nombre de
variables explicatives).
Qualité de la régression
Coefficient de détermination

• Remarques sur le r2
– 0≤ r2 ≤1
– Lorsque le r2 est proche de 1, cela se signifie que la
variable dépendante Y est bien expliquée par les
variables Xi.
– La racine carrée de r2, r, porte le nom de coefficient de
corrélation multiple entre Y et les Xi.
– Lorsque l’on ajoute de nouvelles variables explicatives au
modèle, le r2 augmente (même dans le cas où les
nouvelles variables explicatives n’apportent pas un plus).
=> le r2 ajusté prend en compte la taille de
l’echantillon et le nombre de paramètres.
Qualité de la régression
Test de significativité globale de la régression: Test de Fisher

r2 est limité (pas pratique) notamment si l’échantillon est petit et


le nombre de variable est grand

• Le test global de Fisher


Il permet de répondre à la question : la liaison globale
entre Y et les Xi est-elle significative ?
– Hypothèses
H0: 1 = 2 = ... = p = 0
Y ne dépend pas des variables Xi .

H1: Au moins un coefficient est non nul


Y dépend d’au moins une variable Xi .
Qualité de la régression
test de significativité globale de ficher
Variance expliquée, du modèle
– Statistique utilisée

SCR
MSR p
F 
MSE SCE
N  p 1 Erreur

Degrés de liberté
- Règle de décision
Avec un risque a, on rejette H0 (H0 : 1 = 2 = ... = p = 0 )
si : a ≥ p-value (p-value calculée avec une Fisher à p et n-p-1 degrés de liberté)
ou
si F_calculé >= F_seuil
(F_seuil: trouvé avec p et n-p-1 degrés de liberté et risque= a
Qualité de la régression : test de significat:

région critique:
Pr
H0 est vraie mais elle est rejetée

p-value

F calculé
F seuil =

13
 Il y a autres tests d’hypothèses pour
la vérification des résultats
d’estimation de régression
 chaque test a sa propre utilité, il
répond à une question précise

 chaque test: ses hypothèses de son


application, sa statistique, et sa règle de
décision
Commandant A. ROUIGUEB 14
Qualité de la régression
Test de Fisher

• Conditions d’application de test de Fisher


Les sont indépendants et suivent la même loi normale

•Remarque:
Ce test fournit un moyen d'apprécier la régression

Il permet de vérifier que Y peut déterminé linéairement (expliquée) par une ou par
plusieurs variables de l’ensemble choisi des variables X.

Rejeter H0  accepter H1 (modèle est pertinent)

Vous aimerez peut-être aussi