100% ont trouvé ce document utile (1 vote)
182 vues16 pages

Introduction à la Régression Linéaire

Ce document décrit le modèle de régression linéaire et l'estimateur des moindres carrés. Il présente la position du problème, le critère des moindres carrés et les performances de l'estimateur pour une référence linéaire.

Transféré par

Mouhamd Chimou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
182 vues16 pages

Introduction à la Régression Linéaire

Ce document décrit le modèle de régression linéaire et l'estimateur des moindres carrés. Il présente la position du problème, le critère des moindres carrés et les performances de l'estimateur pour une référence linéaire.

Transféré par

Mouhamd Chimou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chap 2 : Régression linéaire et Estimateur des moindres

carrés (θ déterministe)

Fatma ABDELKEFI

17 septembre 2021

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 1 / 10


Liaison entre deux variables aléatoires réelles X et Y
X et Y deux v.a.r. On dispose n réalisations de (X ; Y ) : (xk ; yk )
k = 1, . . . n : on cherche à définir une relation mathématique entre X et Y
à partir du nuage des points. Exemple :
Variables aléatoires indépendantes Liaison linéaire
0.5 2

1.5
0
y

y
1

-0.5
0.5

-2 -1 0 1 2 -2 -1 0 1 2
x x
Liaison exponentielle Liaison parabolique
10
15

5
y

10

0 5
-2 -1 0 1 2 -2 -1 0 1 2
x
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 2 / 10
Modèle de régression
Definition 1
La régression est une méthode statistique utilisée dans plusieurs
disciplines, qui tente à déterminer une relation (la liaision) entre une
variable (Y ) et une série d’autres variables (Xk ).

• Notre objectif : Définir f qui approche au mieux f (X ) de Y et qu’on


appelle modèle de régression qui expliquera Y en fonction de X :
Y = f (X1 , . . . , Xn ) + ϵ
|{z} .
| {z }
Valeur prédite=Ŷ Erreur résiduelle
• On appelle : Y la variable à expliquer et X est la variable
explicative ou prédicteur qui peut être aléatoire ou non.
On cherche donc à d’abord déterminer la nature de f (linéaire
ou pas), par exemple à partir du nuages des points issus des
reéalisations (xk , yk ). Ensuite, on optimise les paramètres de f .
• On s’intéresse dans ce cours au modèle de régression linéaire.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 3 / 10
Régression linéaire

• Le modèle le plus simple est le modèle de la régression linéaire :

Y = θ0 + θ1 X + ϵ,

où θ = (θ0 , θ1 )T est le paramètre du modèle qu’on cherche à


optimiser pour réduire au mieux ϵ.
• Modèle linéaire simple : Y = θ0 + θ1 X + ϵ.
• Modèle linéaire multiple : On cherche à expliquer Y avec plusieurs
variables explicatives Xk qui sont souvent des v.a.r mutuellement
indépedantes (i.i.d) : Y = θ0 + θ1 X1 + . . . + θp Xp + ϵ avec
θ = (θ0 , . . . , θp )T .

On cherche à ajuster au mieux le vecteur θ pour minimiser


l’erreur résiduelle ϵ c.à.d trouver l’hyperplan optimal. Solution :
Estimateur des moindres carrés (MC)

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 4 / 10


Régression linéaire : Exemple (Source Matlab)

Régression linéaire entre les accidents et la population


5000

4500
Accidents de circulation mortels/Etat

4000

3500

3000

2500

2000

1500

1000

500

0
0 0.5 1 1.5 2 2.5 3 3.5
Population/Etat 107

Figure – Régression linéaire : Simple et multiple.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 5 / 10


Position du problème
• Hypothèse : L’inconnu du problème : le vecteur θ qu’on suppose
déterministe de taille p et on cherche à estimer.
• On suppose que le phénomène étudié est décrit par son signal de
référence Sk,θ , k = 1, . . . , n, paramétré par θ tel que p < n.
• On suppose que le phénomène étudié est décrit par son signal de
référence Sk,θ paramétré par θ de dimension p.
• A cause du bruit de mesure, on observe une version perturbée de Sk,θ
que l’on note Xk supposé i.i.d. On dispose des observations x1 , . . . , xn
à partir des quelles on estime θ ce qui permettra aussi de prévoir Sk,θ .
• Il s’agit d’une régression linéaire multiple : On cherche donc à ajuster
au mieux le vecteur θ pour minimiser l’erreur résiduelle.
• Méthode de résolution : Moindres carrés (MC) ou least squares qui
n’exige aucune hypothèse probabiliste ⇒ Estimer θ,
n X
X n
θ̂(x1 , . . . , xn ) = argmin mij (xi − si,θ )(xj − sj,θ ),
θ∈Rp i=1 j=1

où mij désigne l’élément générique d’une matrice M.


Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 6 / 10
Critère des moindres carrés

• On note par : x = (x1 , . . . , xn )T et sθ = (s1,θ , . . . , sn,θ )T .


Le critère JMC à minimiser est :

JMC (θ) = (x − sθ )T M(x − sθ ) = ∥x − sθ ∥2M .


Il s’agit de la distance entre l’observation et le vecteur signal de
référence sθ .
• Avantages : On n’a pas besoin de connaı̂tre la loi de probabilité du
vecteur X ⇒ facilité du calcul pour le cas linéaire.
• M est symétrique et définie positive, tels que :
• si M = In , on parle d’un MC ordinaire,
• si M ̸= In , on parle d’un MC pondéré.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 7 / 10


Modèle d’observation

• Rappel sur la Dérivation des fonctions multivariables :


□ Dévéloppement de Taylor-Lagrange :
f (θ + s) = f (θ) + ⟨∇f (θ), s⟩ + ∥s∥ϵ(s), on trouve :
T T
□ ∂d∂θ θ = d avec d ∈ Rn et ∂θ∂θMθ = 2Mθ.
• Modèle d’observation :

X = h(θ) + b,

où h(.) est une fonction connue et b est un bruit additif.


• Cas d’une référence linéaire : sθ = Hθ où H est de taille n × p ⇒
le modèle d’observation devient :

x = Hθ + b.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 8 / 10


Cas d’une référence linéaire : Critère à optimiser
• Le critère à minimiser : JMC (θ) = (x − Hθ)T M(x − Hθ).
• Pour déterminer θ̂, il faut calculer : 1)le gradient de JMC , 2)
déterminer le vecteur θ̂ qui l’annule, 3) vérifier qu’il s’agit d’un
minimum : la matrice hessienne de JMC calculée en θ̂ est positive.
T
• Or JMC (θ) = xxT −x |
MHθ {z− θT HT Mx} +θT HT MHT θ. On trouve
=−2xT MHθ
que : ∇JMC (θ) = T
−2H M(x − Hθ).
• ∇JMC (θ̂) = 0 implique que : Si HT MH est inversible
θ̂MC = argmin JMC (θ) = (HT MH)−1 HT Mx.
θ

• La matrice hessienne de JMC est égale à 2HT MH qui est symétrique


définie positive. Il en résulte que θ̂MC est un minimum.
• minp JMC (θ) = JMC (θ̂MC ) = xT M(x − Hθ̂MC )
θ∈R

JMC (θ̂MC ) = xT (M − MH(HT MH)−1 HT M)x.


Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 9 / 10
Performances de l’estimateur pour une référence linéaire

• Les performances de l’estimateur ne peuvent être connues que si l’on


adopte des hypothèses statistiques sur le modèle. On suppose que le
bruit b est centré de matrice de covariance Cb et que X = Hθ + b.
• Biais : E(θ̂MC ) = E((HT MH)−1 HT M(Hθ + b)) = θ ⇒ bθ̂ = 0 :
l’estimateur MC est non biaisé.
• Covariance : Cθ̂MC = E((θ̂MC − E(θ̂MC ))(θ̂MC − E(θ̂MC ))T ). Or
θ̂MC − E(θ̂MC ) = (HT MH)−1 HT M(X − E(X)) =
(HT MH)−1 HT Mb. Il en résulte que :

Cθ̂MC = (HT MH)−1 HT MCb MH(HT MH)−1 .

Si on choisit MCb = I, alors Cθ̂MC = (HT MH)−1 .

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 10 / 10


Références non linéaires par rapport aux paramètres

• Lorsque le signal de référence Sθ est non linéaire par rapport à θ, la


minimisation du critère MC devient difficile et souvent impossible.
Souvent on utilise des méthodes itératives qui peuvent convergencer
vers des minimums locaux ! !
• Solutions possibles :
• considérer l’une des techniques suivantes :
• Transformation des paramètres,
• La linéarisation de la référence,
• La séparabilité des paramètres.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 11 / 10


Références non linéaires par rapport aux paramètres :
Transformation des paramètres

• Il est possible de trouver une transformation g(.) bijective : α = g(θ)


tel que le signal de référence soit linéaire par rapport à α :

S(g(α)) = Hα.

Dans ce cas, on calcule facilement α̂MC : θ̂MC = g −1 (αMC


ˆ ).
• En pratique, il est souvent difficile de trouver directement une
transformation linéaire.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 12 / 10


Références non linéaires par rapport aux paramètres :
Linéarisation de la référence
• Idée : linéariser le signal référence autour d’une valeur θ0 de θ :
sk,θ = sk,θ0 + (∇sk,θ )T θ0 (θ − θ0 ) + ϵ(θ − θO ). Soit
T
Sθ = (s1,θ , . . . , sn,θ ) , alors Sθ ≈ Sθ0 + H(θ0 )(θ − θ0 ) avec
∂s
[H(θ0 )]ij = ∂θi,θj , i = 1 : n, j = 1 : p. Le critère de MC a alors pour
expression :

JMC (θ) = (x − (Sθ0 + H(θ0 )(θ − θ0 )))T (x − (Sθ0 + H(θ0 )(θ − θ0 )))
= (z − H(θ0 )θ)T (z − H(θ0 )θ) avec z = x − Sθ0 + H(θ0 )θ0 .

Comme s(θ0 ) − H(θ0 )θ0 est connu, l’estimateur des MC s’écrit :


θ̂MC = (H(θ0 )T MH(θ0 ))−1 H(θ0 )T Mz =
θ0 + (H(θ0 )T MH(θ0 ))−1 H(θ0 )T M(x − Sθ0 ). ⇒ Il est possible d’itérer
la solution et dévélopper une méthode récursive pour résoudre le
problème d’estmation : Méthode de Gauss Newton
θk+1 = θk + (H(θk )T MH(θk ))−1 H(θk )T M(x − Sθk ).
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 13 / 10
Références non linéaires par rapport aux paramètres :
Séparabilité des paramètres

• Quand la référence peut s’écrire : S(θ) = H(α)β, où α et β sont les!


α
sous vecteurs extraits de θ de tailles respectives p − q et q : θ =
β
et où H(α) est une matrice n × q qui dépend de α ⇒ le modèle est
linéaire par rapport à β et non linéaire par rapport à α.
• L’optimisation au sens de MC consiste d’abord à calculer l’estimateur
β̂ pour α fixé : β̂ = (H(α)T MH(α))−1 H(α)T Mx. Le critère devient
une seule fonction de α :
JMC (α) = xT (M − MH(α)(H(α)T MH(α))−1 H(α)T M)x. Le
problème revient à trouver α qui min JMC (α) ou d’une manière
α∈Rp−q
équivalent à max x MH(α)(H(α) MH(α))−1 H(α)T Mx
T T
α∈Rp−q
La solution n’est directe que pour un signal de référence linéaire.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 14 / 10


Critère d’adéquation d’un modèle de régression linéaire :
Somme des carrés totaux
n
X
Soit x̂ = sθ̂ de sθ par la rég. linéaire, qui min
n
JMC = (xk − x̂k )2 . n
k=1
X X
• Somme des carrés totaux SCT = (xk − x̄ )2 avec x̄ = 1
n xk .
k=1 k=1
Elle désigne la varibilité totale. On montre que pour une régression
n
X
linéaire : (x̂k − x̄ )(x − x̂k ) = 0, d’où cette décomposition appelée
k=1
équation d’analyse de la variance en régression linéaire :

n
SCT = SCE + JMC ,
X
2
• SCE = (x̂k − x̄ ) représente la variabilité expliquée par les Xk .
k=1
♣ Cas idéal : SCE = SCE , c.à.d JMC = 0 : la variabilité totale est
complétement expliquée par les variables explicatives.
L’hyperplan passe par tous les pts du nuage.
♣ Pire cas : SCT = JMC , c.à.d x̂k = x̄ : les v.a explicatives
n’apportent aucune information sur X .
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 15 / 10
Critère d’adéquation d’un modèle de régression linéaire :
Coefficient de détermination

• Coefficient de détermination linéaire R 2 de Pearson ou de corrélation :


Variation expliquée par la régression SCE JMC
R2 = = =1− .
Variation totale SCT SCT
♣ R 2 ∈ [0, 1].
♣ R 2 = 1 implique que xk = x̂k ce qui implique que le nuage de
points sont dans le l’hyperplan.
♣ R 2 = 0 implique que xk = x̄ . C.à.d la droite de régression colle à
0% avec l’ensemble des points donnés.

Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 16 / 10

Vous aimerez peut-être aussi