Chap 2 : Régression linéaire et Estimateur des moindres
carrés (θ déterministe)
Fatma ABDELKEFI
17 septembre 2021
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 1 / 10
Liaison entre deux variables aléatoires réelles X et Y
X et Y deux v.a.r. On dispose n réalisations de (X ; Y ) : (xk ; yk )
k = 1, . . . n : on cherche à définir une relation mathématique entre X et Y
à partir du nuage des points. Exemple :
Variables aléatoires indépendantes Liaison linéaire
0.5 2
1.5
0
y
y
1
-0.5
0.5
-2 -1 0 1 2 -2 -1 0 1 2
x x
Liaison exponentielle Liaison parabolique
10
15
5
y
10
0 5
-2 -1 0 1 2 -2 -1 0 1 2
x
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 2 / 10
Modèle de régression
Definition 1
La régression est une méthode statistique utilisée dans plusieurs
disciplines, qui tente à déterminer une relation (la liaision) entre une
variable (Y ) et une série d’autres variables (Xk ).
• Notre objectif : Définir f qui approche au mieux f (X ) de Y et qu’on
appelle modèle de régression qui expliquera Y en fonction de X :
Y = f (X1 , . . . , Xn ) + ϵ
|{z} .
| {z }
Valeur prédite=Ŷ Erreur résiduelle
• On appelle : Y la variable à expliquer et X est la variable
explicative ou prédicteur qui peut être aléatoire ou non.
On cherche donc à d’abord déterminer la nature de f (linéaire
ou pas), par exemple à partir du nuages des points issus des
reéalisations (xk , yk ). Ensuite, on optimise les paramètres de f .
• On s’intéresse dans ce cours au modèle de régression linéaire.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 3 / 10
Régression linéaire
• Le modèle le plus simple est le modèle de la régression linéaire :
Y = θ0 + θ1 X + ϵ,
où θ = (θ0 , θ1 )T est le paramètre du modèle qu’on cherche à
optimiser pour réduire au mieux ϵ.
• Modèle linéaire simple : Y = θ0 + θ1 X + ϵ.
• Modèle linéaire multiple : On cherche à expliquer Y avec plusieurs
variables explicatives Xk qui sont souvent des v.a.r mutuellement
indépedantes (i.i.d) : Y = θ0 + θ1 X1 + . . . + θp Xp + ϵ avec
θ = (θ0 , . . . , θp )T .
On cherche à ajuster au mieux le vecteur θ pour minimiser
l’erreur résiduelle ϵ c.à.d trouver l’hyperplan optimal. Solution :
Estimateur des moindres carrés (MC)
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 4 / 10
Régression linéaire : Exemple (Source Matlab)
Régression linéaire entre les accidents et la population
5000
4500
Accidents de circulation mortels/Etat
4000
3500
3000
2500
2000
1500
1000
500
0
0 0.5 1 1.5 2 2.5 3 3.5
Population/Etat 107
Figure – Régression linéaire : Simple et multiple.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 5 / 10
Position du problème
• Hypothèse : L’inconnu du problème : le vecteur θ qu’on suppose
déterministe de taille p et on cherche à estimer.
• On suppose que le phénomène étudié est décrit par son signal de
référence Sk,θ , k = 1, . . . , n, paramétré par θ tel que p < n.
• On suppose que le phénomène étudié est décrit par son signal de
référence Sk,θ paramétré par θ de dimension p.
• A cause du bruit de mesure, on observe une version perturbée de Sk,θ
que l’on note Xk supposé i.i.d. On dispose des observations x1 , . . . , xn
à partir des quelles on estime θ ce qui permettra aussi de prévoir Sk,θ .
• Il s’agit d’une régression linéaire multiple : On cherche donc à ajuster
au mieux le vecteur θ pour minimiser l’erreur résiduelle.
• Méthode de résolution : Moindres carrés (MC) ou least squares qui
n’exige aucune hypothèse probabiliste ⇒ Estimer θ,
n X
X n
θ̂(x1 , . . . , xn ) = argmin mij (xi − si,θ )(xj − sj,θ ),
θ∈Rp i=1 j=1
où mij désigne l’élément générique d’une matrice M.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 6 / 10
Critère des moindres carrés
• On note par : x = (x1 , . . . , xn )T et sθ = (s1,θ , . . . , sn,θ )T .
Le critère JMC à minimiser est :
JMC (θ) = (x − sθ )T M(x − sθ ) = ∥x − sθ ∥2M .
Il s’agit de la distance entre l’observation et le vecteur signal de
référence sθ .
• Avantages : On n’a pas besoin de connaı̂tre la loi de probabilité du
vecteur X ⇒ facilité du calcul pour le cas linéaire.
• M est symétrique et définie positive, tels que :
• si M = In , on parle d’un MC ordinaire,
• si M ̸= In , on parle d’un MC pondéré.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 7 / 10
Modèle d’observation
• Rappel sur la Dérivation des fonctions multivariables :
□ Dévéloppement de Taylor-Lagrange :
f (θ + s) = f (θ) + ⟨∇f (θ), s⟩ + ∥s∥ϵ(s), on trouve :
T T
□ ∂d∂θ θ = d avec d ∈ Rn et ∂θ∂θMθ = 2Mθ.
• Modèle d’observation :
X = h(θ) + b,
où h(.) est une fonction connue et b est un bruit additif.
• Cas d’une référence linéaire : sθ = Hθ où H est de taille n × p ⇒
le modèle d’observation devient :
x = Hθ + b.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 8 / 10
Cas d’une référence linéaire : Critère à optimiser
• Le critère à minimiser : JMC (θ) = (x − Hθ)T M(x − Hθ).
• Pour déterminer θ̂, il faut calculer : 1)le gradient de JMC , 2)
déterminer le vecteur θ̂ qui l’annule, 3) vérifier qu’il s’agit d’un
minimum : la matrice hessienne de JMC calculée en θ̂ est positive.
T
• Or JMC (θ) = xxT −x |
MHθ {z− θT HT Mx} +θT HT MHT θ. On trouve
=−2xT MHθ
que : ∇JMC (θ) = T
−2H M(x − Hθ).
• ∇JMC (θ̂) = 0 implique que : Si HT MH est inversible
θ̂MC = argmin JMC (θ) = (HT MH)−1 HT Mx.
θ
• La matrice hessienne de JMC est égale à 2HT MH qui est symétrique
définie positive. Il en résulte que θ̂MC est un minimum.
• minp JMC (θ) = JMC (θ̂MC ) = xT M(x − Hθ̂MC )
θ∈R
JMC (θ̂MC ) = xT (M − MH(HT MH)−1 HT M)x.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 9 / 10
Performances de l’estimateur pour une référence linéaire
• Les performances de l’estimateur ne peuvent être connues que si l’on
adopte des hypothèses statistiques sur le modèle. On suppose que le
bruit b est centré de matrice de covariance Cb et que X = Hθ + b.
• Biais : E(θ̂MC ) = E((HT MH)−1 HT M(Hθ + b)) = θ ⇒ bθ̂ = 0 :
l’estimateur MC est non biaisé.
• Covariance : Cθ̂MC = E((θ̂MC − E(θ̂MC ))(θ̂MC − E(θ̂MC ))T ). Or
θ̂MC − E(θ̂MC ) = (HT MH)−1 HT M(X − E(X)) =
(HT MH)−1 HT Mb. Il en résulte que :
Cθ̂MC = (HT MH)−1 HT MCb MH(HT MH)−1 .
Si on choisit MCb = I, alors Cθ̂MC = (HT MH)−1 .
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 10 / 10
Références non linéaires par rapport aux paramètres
• Lorsque le signal de référence Sθ est non linéaire par rapport à θ, la
minimisation du critère MC devient difficile et souvent impossible.
Souvent on utilise des méthodes itératives qui peuvent convergencer
vers des minimums locaux ! !
• Solutions possibles :
• considérer l’une des techniques suivantes :
• Transformation des paramètres,
• La linéarisation de la référence,
• La séparabilité des paramètres.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 11 / 10
Références non linéaires par rapport aux paramètres :
Transformation des paramètres
• Il est possible de trouver une transformation g(.) bijective : α = g(θ)
tel que le signal de référence soit linéaire par rapport à α :
S(g(α)) = Hα.
Dans ce cas, on calcule facilement α̂MC : θ̂MC = g −1 (αMC
ˆ ).
• En pratique, il est souvent difficile de trouver directement une
transformation linéaire.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 12 / 10
Références non linéaires par rapport aux paramètres :
Linéarisation de la référence
• Idée : linéariser le signal référence autour d’une valeur θ0 de θ :
sk,θ = sk,θ0 + (∇sk,θ )T θ0 (θ − θ0 ) + ϵ(θ − θO ). Soit
T
Sθ = (s1,θ , . . . , sn,θ ) , alors Sθ ≈ Sθ0 + H(θ0 )(θ − θ0 ) avec
∂s
[H(θ0 )]ij = ∂θi,θj , i = 1 : n, j = 1 : p. Le critère de MC a alors pour
expression :
JMC (θ) = (x − (Sθ0 + H(θ0 )(θ − θ0 )))T (x − (Sθ0 + H(θ0 )(θ − θ0 )))
= (z − H(θ0 )θ)T (z − H(θ0 )θ) avec z = x − Sθ0 + H(θ0 )θ0 .
Comme s(θ0 ) − H(θ0 )θ0 est connu, l’estimateur des MC s’écrit :
θ̂MC = (H(θ0 )T MH(θ0 ))−1 H(θ0 )T Mz =
θ0 + (H(θ0 )T MH(θ0 ))−1 H(θ0 )T M(x − Sθ0 ). ⇒ Il est possible d’itérer
la solution et dévélopper une méthode récursive pour résoudre le
problème d’estmation : Méthode de Gauss Newton
θk+1 = θk + (H(θk )T MH(θk ))−1 H(θk )T M(x − Sθk ).
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 13 / 10
Références non linéaires par rapport aux paramètres :
Séparabilité des paramètres
• Quand la référence peut s’écrire : S(θ) = H(α)β, où α et β sont les!
α
sous vecteurs extraits de θ de tailles respectives p − q et q : θ =
β
et où H(α) est une matrice n × q qui dépend de α ⇒ le modèle est
linéaire par rapport à β et non linéaire par rapport à α.
• L’optimisation au sens de MC consiste d’abord à calculer l’estimateur
β̂ pour α fixé : β̂ = (H(α)T MH(α))−1 H(α)T Mx. Le critère devient
une seule fonction de α :
JMC (α) = xT (M − MH(α)(H(α)T MH(α))−1 H(α)T M)x. Le
problème revient à trouver α qui min JMC (α) ou d’une manière
α∈Rp−q
équivalent à max x MH(α)(H(α) MH(α))−1 H(α)T Mx
T T
α∈Rp−q
La solution n’est directe que pour un signal de référence linéaire.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 14 / 10
Critère d’adéquation d’un modèle de régression linéaire :
Somme des carrés totaux
n
X
Soit x̂ = sθ̂ de sθ par la rég. linéaire, qui min
n
JMC = (xk − x̂k )2 . n
k=1
X X
• Somme des carrés totaux SCT = (xk − x̄ )2 avec x̄ = 1
n xk .
k=1 k=1
Elle désigne la varibilité totale. On montre que pour une régression
n
X
linéaire : (x̂k − x̄ )(x − x̂k ) = 0, d’où cette décomposition appelée
k=1
équation d’analyse de la variance en régression linéaire :
n
SCT = SCE + JMC ,
X
2
• SCE = (x̂k − x̄ ) représente la variabilité expliquée par les Xk .
k=1
♣ Cas idéal : SCE = SCE , c.à.d JMC = 0 : la variabilité totale est
complétement expliquée par les variables explicatives.
L’hyperplan passe par tous les pts du nuage.
♣ Pire cas : SCT = JMC , c.à.d x̂k = x̄ : les v.a explicatives
n’apportent aucune information sur X .
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 15 / 10
Critère d’adéquation d’un modèle de régression linéaire :
Coefficient de détermination
• Coefficient de détermination linéaire R 2 de Pearson ou de corrélation :
Variation expliquée par la régression SCE JMC
R2 = = =1− .
Variation totale SCT SCT
♣ R 2 ∈ [0, 1].
♣ R 2 = 1 implique que xk = x̂k ce qui implique que le nuage de
points sont dans le l’hyperplan.
♣ R 2 = 0 implique que xk = x̄ . C.à.d la droite de régression colle à
0% avec l’ensemble des points donnés.
Fatma ABDELKEFI (Sup’Com) Partie I 17 septembre 2021 16 / 10