0% ont trouvé ce document utile (0 vote)
33 vues8 pages

5 Regression Lineaire

Le document présente la régression linéaire multiple comme une méthode d'analyse statistique permettant d'établir une relation linéaire entre une variable expliquée et plusieurs variables explicatives. Il décrit la formalisation du problème, l'estimation des coefficients par la méthode des moindres carrés, et introduit le coefficient de détermination pour évaluer la qualité du modèle. Les concepts clés incluent les résidus, la minimisation des erreurs, et les conditions d'inversibilité des matrices impliquées.

Transféré par

dimbyrajoelijao
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues8 pages

5 Regression Lineaire

Le document présente la régression linéaire multiple comme une méthode d'analyse statistique permettant d'établir une relation linéaire entre une variable expliquée et plusieurs variables explicatives. Il décrit la formalisation du problème, l'estimation des coefficients par la méthode des moindres carrés, et introduit le coefficient de détermination pour évaluer la qualité du modèle. Les concepts clés incluent les résidus, la minimisation des erreurs, et les conditions d'inversibilité des matrices impliquées.

Transféré par

dimbyrajoelijao
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction

Analyse de données

Rakotoarimalala Tsinjo Tony

Cours 3: Régréssion linéaire multiple

Rakotoarimalala Tsinjo Tony Analyse de données


Introduction

La régression recouvre plusieurs méthodes d’analyse


statistique permettant d’approcher une variable à partir
d’autres qui lui sont corrélées.
un modèle de régression linéaire est un modèle de régression
qui cherche à établir une relation linéaire entre une variable,
dite expliquée, et une ou plusieurs variables, dites explicatives.
la régression linéaire multiple est une méthode de
régression mathématique étendant la régression linéaire simple
pour décrire les variations d’une variable endogène (expliquée)
associée aux variations de plusieurs variables exogènes
(explicatives).

Rakotoarimalala Tsinjo Tony Analyse de données


Introduction

en abscisse la variable explicative (on n’a qu’une seule dans


cet exemple), et en ordonnée la variable expliqué
En bleu on a des nuages de points dans le plan
En rouge le modèle de régression linéaire
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction

Formalisation du problème
Étant donné un échantillon (yi , Xi1 , . . . , Xip ) pour i ∈ {1, n} ,
on cherche à expliquer, avec le plus de précision possible, les
valeurs prises par yi , à partir d’une série de variables
explicatives Xi1 , ..., Xip .
Le modèle théorique, formulé en termes de variables
aléatoires, prend la forme
yi = a0 + a1 Xi1 + a2 Xi2 + . . . + ap Xip + εi , i = 1, . . . , n
Les coefficients a0 , a1 , . . . , ap sont les paramètres à estimer.
La forme complète est donc



 y1 = a0 + a1 x1,1 + . . . + ap x1,p + ε1

y = a + a x + . . . + a x + ε

2 0 1 2,1 p 2,p 2
· · ·



yn = a0 + a1 xn,1 + . . . + ap xn,p + εn

Rakotoarimalala Tsinjo Tony Analyse de données


Introduction

Estimateur de moindre carré

L’estimateur utilisé est donc un estimateur linéaire de la forme

yˆi = â0 + â1 xi,1 + · · · + âp xi,p , i = 1 · · · n

Les résidus estimés ˆi ≡ yi − ŷi sont la différence entre la


valeur de y observée et estimée
L’objectif est de choisir les âi qui minimise la somme des
carrées des résidus
n
X n
X
(â0 , ., âp ) = argmin ˆ2i = argmin (yi −â0 −â1 xi,1 −· · ·−âp xi,p )2
i=1 â0 ,.,âp i=1

Les ˆi peuvent être interpréter par la distance de la valeur


réelle et la valeur donnée par le modèle

Rakotoarimalala Tsinjo Tony Analyse de données


Introduction

Estimateur de moindre carré


Pn
Minimiser
P S= ˆ2i
i=1  revient à chercher des solutions de
∂( ˆ2i )
= 0 pour j allant de 0 à p
∂âj
On a pour tout j = 0, · · · , p:
P 2 n
∂( ˆi ) X
=0⇔ xi,j (yi − â0 − â1 xi,1 − · · · − âp xi,p ) = 0
∂âj i=1

Sous forme matricielle


 
 1 1 ··· 1
 ! ! â0  0
 ŷ1 1 x1,1 ··· x1,p 0
x1,1 x2,1 ··· xn,1 â1

 ... −
 . . . .  .  =  .. 

 . . . . . . . .
. . . . . . . . .
. . . .  .  .
 ŷn 1 xn,1 ··· xn,p 0
x1,p x1,p ··· xn,p âp 
| {z } | {z } | {z } | {z }
Y X A
XT
ou encore  
X T Y − X Â = 0
Rakotoarimalala Tsinjo Tony Analyse de données
Introduction

Estimateur de moindre carré

Donc il nous suffit de résoudre l’équation suivante sur A


 
X T Y − X Â = 0

C’est-à-dire
 −1
X T Y = X T XA ⇔ A = X T X XTY

Cette dernière suppose que X T X est inversible c’est-à-dire X de


rang p + 1 (pas de colinéarité entre les colonnes (les variables)
de X ). Dans la pratique on supprime tout simplement les colonnes
colinéaires.

Rakotoarimalala Tsinjo Tony Analyse de données


Introduction

Coefficient de détermination
On définit alors les notions suivantes:
Somme de carrées résiduelle
X
(yi − ŷi )2

SCR =
n

Somme de carrées expliquée


X
(ŷi )2 − ȳ

SCE =
n

Somme de carrées totale


SCT = SCR + SCE
La coefficient de détermination
SCE
R2 =
SCT
On a 0 ≤ R 2 ≤ 1. Si R 2 est proche de 0 alors le pouvoir prédictif du
modèle est faible et s’il est proche de 1 son pouvoir prédictif est fort
Rakotoarimalala Tsinjo Tony Analyse de données

Vous aimerez peut-être aussi