Introduction
Analyse de données
Rakotoarimalala Tsinjo Tony
Cours 3: Régréssion linéaire multiple
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
La régression recouvre plusieurs méthodes d’analyse
statistique permettant d’approcher une variable à partir
d’autres qui lui sont corrélées.
un modèle de régression linéaire est un modèle de régression
qui cherche à établir une relation linéaire entre une variable,
dite expliquée, et une ou plusieurs variables, dites explicatives.
la régression linéaire multiple est une méthode de
régression mathématique étendant la régression linéaire simple
pour décrire les variations d’une variable endogène (expliquée)
associée aux variations de plusieurs variables exogènes
(explicatives).
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
en abscisse la variable explicative (on n’a qu’une seule dans
cet exemple), et en ordonnée la variable expliqué
En bleu on a des nuages de points dans le plan
En rouge le modèle de régression linéaire
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
Formalisation du problème
Étant donné un échantillon (yi , Xi1 , . . . , Xip ) pour i ∈ {1, n} ,
on cherche à expliquer, avec le plus de précision possible, les
valeurs prises par yi , à partir d’une série de variables
explicatives Xi1 , ..., Xip .
Le modèle théorique, formulé en termes de variables
aléatoires, prend la forme
yi = a0 + a1 Xi1 + a2 Xi2 + . . . + ap Xip + εi , i = 1, . . . , n
Les coefficients a0 , a1 , . . . , ap sont les paramètres à estimer.
La forme complète est donc
y1 = a0 + a1 x1,1 + . . . + ap x1,p + ε1
y = a + a x + . . . + a x + ε
2 0 1 2,1 p 2,p 2
· · ·
yn = a0 + a1 xn,1 + . . . + ap xn,p + εn
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
Estimateur de moindre carré
L’estimateur utilisé est donc un estimateur linéaire de la forme
yˆi = â0 + â1 xi,1 + · · · + âp xi,p , i = 1 · · · n
Les résidus estimés ˆi ≡ yi − ŷi sont la différence entre la
valeur de y observée et estimée
L’objectif est de choisir les âi qui minimise la somme des
carrées des résidus
n
X n
X
(â0 , ., âp ) = argmin ˆ2i = argmin (yi −â0 −â1 xi,1 −· · ·−âp xi,p )2
i=1 â0 ,.,âp i=1
Les ˆi peuvent être interpréter par la distance de la valeur
réelle et la valeur donnée par le modèle
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
Estimateur de moindre carré
Pn
Minimiser
P S= ˆ2i
i=1 revient à chercher des solutions de
∂( ˆ2i )
= 0 pour j allant de 0 à p
∂âj
On a pour tout j = 0, · · · , p:
P 2 n
∂( ˆi ) X
=0⇔ xi,j (yi − â0 − â1 xi,1 − · · · − âp xi,p ) = 0
∂âj i=1
Sous forme matricielle
1 1 ··· 1
! ! â0 0
ŷ1 1 x1,1 ··· x1,p 0
x1,1 x2,1 ··· xn,1 â1
... −
. . . . . = ..
. . . . . . . .
. . . . . . . . .
. . . . . .
ŷn 1 xn,1 ··· xn,p 0
x1,p x1,p ··· xn,p âp
| {z } | {z } | {z } | {z }
Y X A
XT
ou encore
X T Y − X Â = 0
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
Estimateur de moindre carré
Donc il nous suffit de résoudre l’équation suivante sur A
X T Y − X Â = 0
C’est-à-dire
−1
X T Y = X T XA ⇔ A = X T X XTY
Cette dernière suppose que X T X est inversible c’est-à-dire X de
rang p + 1 (pas de colinéarité entre les colonnes (les variables)
de X ). Dans la pratique on supprime tout simplement les colonnes
colinéaires.
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction
Coefficient de détermination
On définit alors les notions suivantes:
Somme de carrées résiduelle
X
(yi − ŷi )2
SCR =
n
Somme de carrées expliquée
X
(ŷi )2 − ȳ
SCE =
n
Somme de carrées totale
SCT = SCR + SCE
La coefficient de détermination
SCE
R2 =
SCT
On a 0 ≤ R 2 ≤ 1. Si R 2 est proche de 0 alors le pouvoir prédictif du
modèle est faible et s’il est proche de 1 son pouvoir prédictif est fort
Rakotoarimalala Tsinjo Tony Analyse de données