Régression Multiple
Dr OUATTARA Mory
Dr OUATTARA Mory Régression Multiple 1 / 111
1 Rappels sur la régression multiple
2 La régression
3 Modélisation
4 Qualité d’ajustement
5 Prévision
6 Traitement de la multicolinéarité
7 Régression sur composantes Principales
8 Objectif
Dr OUATTARA Mory Régression Multiple 2 / 111
Notations
x1
x2 0
x = . = x1 x2 . . . xp est le vecteur des p observations
..
xp
Une observation xi , élément de Rp où p est la taille des variables, est de la
forme xi = [xi1 xi2 . . . xip ]
x11 x12 . . . x1p
x21 x22 . . . x2p
la matrice des n des observations est la forme X = ..
.
xn1 xn2 . . . xnp
Dr OUATTARA Mory Régression Multiple 3 / 111
Définitions
Produit scalaire : soit x et y deux vecteurs x.y = x 0 y = x1 y1 + · · · + xp yp
√
Norme euclidienne : k x k= x 0x
Pp
Norme L1 : k x k21 = i=1 |xi |
Pp 2
Norme L2 : k x k22 = i=1 |xi |
x
Normaliser x revient à remplacer x par kxk
Dr OUATTARA Mory Régression Multiple 4 / 111
Interprétation du produit scalaire
Dr OUATTARA Mory Régression Multiple 5 / 111
Régression : Ajuster une courbe sur les données
Classification supervisée : pour x prédire y la classe d’appartenance de x
Régression : pour x prédire la valeur numérique y pour x
En règle générale la nature de la régression est liée à une fonction :
de lien que f (x, β)
de coût ou de risque R(f )
Dr OUATTARA Mory Régression Multiple 6 / 111
Fonctions de lien
Sans être exhaustif
(l1 ) Lien linéaire : f (x) = α + βx avec β et x ∈ Rp et α est un élément de R
(l2 ) Lien polynomiale f (x) = α + β1 x + β2 x 2 + ... avec β et x ∈ Rp
1
(l3 ) Lien Logistique : f (x) = g (βx + α) avec g (u) = 1+e −u
Dr OUATTARA Mory Régression Multiple 7 / 111
Fonctions de Perte
Sans être exhaustif
Soit z = f (x) la prédiction de x par la fonction de lien f et y la valeur observée.
(p1 ) L(y , z) = (y − z)2 le carré de l’erreur
(p2 ) L(y , z) = |y − z| l’erreur absolue
(p3 ) L(y , z) = −yln(z) − (1 − y )ln(1 − z) erreur en régression logistique y ∈ [0, 1]
et z ∈ {0, 1}
Dr OUATTARA Mory Régression Multiple 8 / 111
Fonctions de coût à minimiser
Sans être exhaustif
Soit z = f (x) la prédiction de x par la fonction de lien f et y la valeur observée.
1
Pn
(c1 ) J(h) = n i=1 L(f (Xi ), yi ) Moyenne des pertes
(c2 ) J(h) = maxi L(f (Xi ), yi ) La perte maximale
Pn
(c3 ) J(h) = i=1 wi L(f (Xi ), yi ) coût pondéré
1
Pn
(c4 ) J(h) = n i=1 L(f (Xi ), yi ) + λ k w k2 coût avec une pénalité de type L2
1
Pn
(c5 ) J(h) = n i=1 L(f (Xi ), yi ) + λ k w kL1 coût avec une pénalité de type L1
Dr OUATTARA Mory Régression Multiple 9 / 111
Quelques méthodes classiques de régression
Méthode des moindre carrés : (l1 ) + (p1 ) + (c1 )
Méthode des Moindre carrés pondérés (l1 ) + (p1 ) + (c3 )
Régression RIDGE (l1 ) + (p1 ) + (c4 )
Régression LASSO (l1 ) + (p1 ) + (c5 )
Régression Logistique (l3 ) + (p3 ) + (c1 )
Dr OUATTARA Mory Régression Multiple 10 / 111
Exemple
On cherche à modéliser la relation entre poids des bébés à naissance et l’âge, le
poids et le statut tabagique de la mère durant la grossesse. On pose :
y = poids de naissance en grammes (bwt),
x1 = âge de la mère (age),
x2 = poids de la mère en kilos (weight),
x3 = statut tabagique de la mère pendant la grossesse (smoke) codée 1=oui
et 0=non.
Modèle de la forme
Yi ≈ f (xi 2, xi 2, xi 3)
On suppose que cette relation est linéaire de la forme :
y = β0 + β1 x1 + β2 x2 + β3 x3
Dr OUATTARA Mory Régression Multiple 11 / 111
On utilise un échantillon de n = 1174 naissances pour lesquelles le poids du bébé,
l’âge, le poids et le statut tabagique de la mère, ont été mesurés.
Dr OUATTARA Mory Régression Multiple 12 / 111
Exemple graphique
Pour (l1 ) + (p1 ) + (c1 ) le problème se visualise :
Dr OUATTARA Mory Régression Multiple 13 / 111
Modélisation
Notations
X = [1, X1 | . . . |Xp ]
Xj est le vecteur de taille n correspondant à la j-ème variable
La i-ème ligne de la matrice X sera quant à elle notée xi0 = [1, xi1 , ..., xip ]
∀i ∈ 1, . . . , n yi = xi0 β + εi
n > p mais pas toujours.
Dr OUATTARA Mory Régression Multiple 14 / 111
Modélisation
Le problème mathématique s’écrit de la façon suivante :
n
X
arg min L(yi − f (xi ))
f ∈F
i=1
F : une classe de fonctions dans laquelle est supposée vivre la vraie fonction
inconnue.
n
F = f : Rp → R, f (x1 , . . . , xp ) = β0 + pj=1 βj xj }
P
n : nombre de données disponibles (tailles de l’échantillon)
L(·) est appelée fonction de coût ou fonction de perte.
Dr OUATTARA Mory Régression Multiple 15 / 111
Définition (Modèle de régression linéaire Multiple)
Un modèle de régression linéaire multiple est défini par une équation de la forme
∀i ∈ {1, . . . , n} yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + εi
les xij sont des nombres connus, non aléatoires, la variable xi1 valant
souvent 1 ∀ i ;
les paramètres βj du modèle sont inconnus, mais non aléatoires ;
εi : les erreurs (ou bruits) et elles sont supposées aléatoires.
Dr OUATTARA Mory Régression Multiple 16 / 111
Définition (Modèle de régression linéaire multiple)
Sous forme matricielle un modèle de régression linéaire Multiple est défini par une
équation de la forme
Y = Xβ + ε
Le vecteur Y = [y1 , . . . , yn ]0 aléatoire de dimension n
Une matrice X (n × (p + 1)) non aléatoire
1
Les coefficients β un vecteur de Rp des paramètres inconnus non aléatoires
Le vecteur ε = [ε1 , . . . , εn ]0 aléatoire
Pour pouvoir dire des choses pertinentes sur ce modèle, il faut néanmoins imposer
des hypothèses les concernant.
Dr OUATTARA Mory Régression Multiple 17 / 111
Les hypothèses H1 et H2
Y = Xβ + ε
Les hypothèses du modèle
H1 : E(εi ) = 0 elle indique que les erreurs sont centrées
(H) H2 : Var (εi ) = σ 2 On parle d’hypothèse d’homogénéité des variances.
H : cov (ε , ε 0 ) = 0 ∀i 6= i 0 les termes d’erreur ε sont non corrélés.
3 i i i
Dans la suite on supposera
n > (p + 1) et rang (X ) = p + 1
Dr OUATTARA Mory Régression Multiple 18 / 111
Estimateur des moindres carrés ordinaires
L’estimateur des Moindres Carrés Ordinaires (MCO) β̂ minimise la quantité :
2
n
X p
X
yi − βi xij =k y − X β k2 = (y − X β)0 (y − X β)
i=1 j=1
Que l’on peut récrire
2
n
X p
X
βb = Min yi − βi xij = Min k y − X β k2 = Min(y − X β)0 (y − X β)
β β β
i=1 j=1
Dr OUATTARA Mory Régression Multiple 19 / 111
Notations Matricielles
Variable dépendante Valeurs Estimées Estimateurs des coefficients
b
y1 yb1 β0
y2 yb2 βb1
y =. yb = . βb = .
.. .. ..
yn ybn βbp
Dr OUATTARA Mory Régression Multiple 20 / 111
Estimateur des moindres carrés ordinaires
βb = Min(y − X β)0 (y − X β)
β
Qu’on peut réécrire comme
βb = Min(y 0 y + β 0 X 0 X β − 2β 0 X 0 y )
β
On dérive ensuite par rapport à β
∂F
= 2X 0 X β − 2X 0 y
∂β
Condition d’optimisation : 2X 0 X β − 2X 0 y = 0
Solution : β̂ = (X 0 X )−1 X 0 y
Rang (X ) = p + 1
Dr OUATTARA Mory Régression Multiple 21 / 111
Sorties R des données poids de naissance
Dr OUATTARA Mory Régression Multiple 22 / 111
Interprétation géométrique
ŷ = X β̂ = X (X 0 X )−1 X 0 y ∈ Rn est une combinaison linéaire des colonnes de
X
A = X (X 0 X )−1 X 0 est la matrice de projection dans Rn sur le sous-espace W
engendré par les colonnes de X .
ŷ est la projection D-orthogonale de y sur W avec la métrique D = n1 In
ε = y − ŷ = y − Aŷ = (I − A)y est la projection de y sur W ⊥ .
Dr OUATTARA Mory Régression Multiple 23 / 111
Prédictions et résidus
Une fois que β a été estimé, nous pouvons reconstruire nos données à l’aide de
notre modélisation. On construit les prédictions
p
X
yˆi = β̂0 + β̂1 xij
j=1
et les résidus
ε̂i = yi − yˆi
Dr OUATTARA Mory Régression Multiple 24 / 111
Estimation de σ 2
Selon la stratégie usuelle, on considère l’estimateur
n
2 1 X
σ̂ = ε̂2i
n−p−1
i=1
Sous les hypothèses retenues on peut montrer que :
E(σ̂ 2 ) = σ 2
Montrer le résultat précédent
Dr OUATTARA Mory Régression Multiple 25 / 111
Qualité d’ajustement linéaire
La notion de liaison entre X et y =⇒ qu’une variation de X entraine une variation
de y .
La décomposition de la somme des carrés des écarts des Y à la moyenne ȳ permet
d’expliquer la part de variation de y expliquée par X
n
X n
X n
X
(yi − ȳ )2 = (yi − ŷi )2 + (ŷi − ȳ )2
i=1 i=1 i=1
SCT SCR SCE
Dr OUATTARA Mory Régression Multiple 26 / 111
Preuve
On a (yi − ȳ ) = (yi − yˆi ) + (yˆi − ȳ )
n
X n
X
SCT = (yi − ȳ )2 = [(yi − yˆi ) + (yˆi − ȳ )]2
i=1 i=1
n
X n
X n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2 (yi − yˆi )(yˆi − ȳ )
i=1 i=1 i=1
Xn Xn Xn n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2[ (yi − yˆi )yˆi − ȳ (yi − yˆi )]
i=1 i=1 i=1 i=1
n
X n
X n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2 (yi − yˆi )yˆi
i=1 i=1 i=1
Xn Xn n
X n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2[β1 i + β2 i x i ]
i=1 i=1 i=1 i=1
SCT = SCR + SCE
Dr OUATTARA Mory Régression Multiple 27 / 111
Coefficient de détermination
Pn
2 SCE (ŷi − ȳ )2 SCR
R = = Pi=1
n 2
=1−
SCT i=1 (yi − ȳ ) SCT
Mesure la part de la variation de y expliquée par la variable x.
R 2 est compris entre 0 et 1
(
R 2 = 1 =⇒ SCR = 0 La liaison entre x et y est parfaitement lineaire
R 2 = 0 =⇒ SCE = 1 La liaison entre x et y est non lineaire
Dr OUATTARA Mory Régression Multiple 28 / 111
Coefficient de Corrélation
Pn
cov (x, y ) (xi − x̄)(yi − ȳ )
cor (x, y ) = p = qP i=1
var (x)var (y ) n 2
Pn 2
i=1 (xi − x̄) i=1 (yi − ȳ )
qP
n 2
i=1 (xi − x̄)
= β2 Pn 2
i=1 (yi − ȳ )
Le signe de la corrélation est le signe de la pente de la droite des moindres carrés
On montre par ailleurs que
Pn Pn
(xi − x̄)2 i=1 (ŷi − ȳ )
2
R 2 = β2 Pni=1 2
= Pn 2
= cor (x, y )2
(y
i=1 i − ȳ ) (y
i=1 i − ȳ )
Dr OUATTARA Mory Régression Multiple 29 / 111
Propriétés de βb
Sous les hypothèses retenues, on peut montrer que :
E(β)
b =β
b = (X 0 X )−1 σ 2
V(β)
Exercice : montrer les résultats précédents
Dr OUATTARA Mory Régression Multiple 30 / 111
Biais
L’estimateur βb des moindres carrés est sans biais :
E [β]
b =β
En effet,
b = E [(X 0 X )−1 X 0 Y ] = (X 0 X )−1 X 0 E [X β + ε] = (X 0 X )−1 X 0 X β = β
E [β]
Covariance
b = σ 2 (X 0 X )−1
Var [β]
En effet,
b = Var [(X 0 X )−1 X 0 Y ] = (X 0 X )−1 X 0 Var (Y )X (X 0 X )−1
Var [β]
= (X 0 X )−1 X 0 σ 2 In X (X 0 X )−1 = σ 2 (X 0 X )−1
On peut également montrer que βb est l’estimateur sans biais de variance
minimale ou encore estimateur BLUE (Best Linear Unbiased Estimator)
Dr OUATTARA Mory Régression Multiple 31 / 111
Cas Gaussien
On ajoute l’hypothèse de normalité des erreurs :
εi ∼ N(0, σ 2 ) ⇒ Yi ∼ N(0, σ 2 )
Remarques.
Sous l’hypothèse de normalité, V (ε) = V (Y ) = σ 2 In
implique que le εi et les Yi sont indépendants.
Dr OUATTARA Mory Régression Multiple 32 / 111
Estimateurs du maximum de vraisemblance de β et de σ 2
La fonction de vraisemblance L(β, σ 2 ) est la densité conjointe des Yi . Les
estimateurs β̃, σ̃ 2 qui maximisent L(β, σ 2 ) sont :
β̃ = (X 0 X )−1 X 0 Y
1 b 0 (Y − X β)
b −1
σ̃ 2 = (Y − X β)
n
σ̃ 2 est biaisé
Dr OUATTARA Mory Régression Multiple 33 / 111
Propriétés de β̃ et σ̃ 2
Sous les hypothèses du modèle :
β̃ ∼ N(β, σ 2 (X 0 X )−1 ) ⇒ βb ∼ N(β, σ 2 (X 0 X )−1 )
2
σ̃ 2 σ
∼ χ2 (n − p − 1) ⇒ n 2 ∼ χ2 (n − p − 1)
b
n2
σ σ
2 2
3 β̃ et σ̃ indépendants β et σ
b b ⇒ indépendant
Dr OUATTARA Mory Régression Multiple 34 / 111
Test de significativité du modèle
Nous allons tester
H0 : ”β1 = ... = βp = 0” contre H1 : ”∃j ∈ {1, ..., p}, βj 6= 0".
La statistique de test associée est
SCE /p
Fn =
SCR/(n − p − 1)
qui est distribuée sous H0 selon une loi de Fisher à p et n − p − 1 degrés de
libertés.
La zone de rejet associé à cette statistique est :
R =]fp,n−p−1,1−α , +∞[
Dr OUATTARA Mory Régression Multiple 35 / 111
Test de significativité d’un coefficient βj
Nous voulons tester
H0 : ”βj = 0” contre H1 : ”βj 6= 0".
On montre que
βbj − βj
√ ∼ t(n − p − 1)
σ
b cjj
où c00 , c11 , ..., cpp sont les éléments diagonaux de (X 0 X )−1
On utilise sous donc la statistique de test
βbj − βj
Tn = √ ∼ t(n − p − 1)
σ
b cjj
La zone de rejet associé à cette statistique est :
R =] − ∞, −tn−p−1,1−α/2 [∪]tn−p−1,1−α/2 , +∞[
Dr OUATTARA Mory Régression Multiple 36 / 111
Test de significativité d’un coefficient βj
Rejeter H0 signifie :
que la variable explicative Xj joue un rôle dans le modèle de régression,
c’est-à-dire que Xj apporte de l’information quant à la reconstruction de Y
que le coefficient βj est significativement non nul
que βj s’interprète comme le taux d’accroissement moyen de Y en fonction
d’une variation de Xj lorsque tous les autres régresseurs
X1 , . . . , Xj−1 , Xk+1 , . . . Xp restent fixés.
Dr OUATTARA Mory Régression Multiple 37 / 111
Exemple des données poids de naissance.
Dr OUATTARA Mory Régression Multiple 38 / 111
Contribution jointe d’un ensemble de régresseurs
On cherche à tester la nullité des q ≤ p premiers paramètres :
H0 : ”β1 = ... = βq = 0” contre H1 : ”∃j ∈ {1, ..., q}, βj 6= 0".
Cela revient à comparer deux modèles :
le modèle complet à p regresseurs (modèle 1) pour lequel on évalue la somme
des carrés des résidus SCR1
le modèle réduit à p − q regresseurs (modèle 0) pour lequel on évalue la
somme des carrés des résidus SCR0 .
Dr OUATTARA Mory Régression Multiple 39 / 111
Contribution jointe d’un ensemble de régresseurs
On peut montrer que sous H0 :
(SCR0 − SCR1 )/q
∼ F (q, n − p − 1)
SCR1 /(n − p − 1)
Nous en déduisons la zone de rejet associée à cette statistique de test :
R =]fq,n−p−1,1−α , +∞[
Remarque. Ce test est utile pour faire de la modélisation pas à pas et sélectionner
un ensemble optimal de régresseurs nécessaires à la reconstruction de Y .
Dr OUATTARA Mory Régression Multiple 40 / 111
Exemple des données poids de naissance
Dr OUATTARA Mory Régression Multiple 41 / 111
Prévision : définition
0
Soit xn+1 = [xn+1,1 , . . . , xn+1,p ] et souhaite prédire le yn+1 associé qui est définie
par :
0
yn+1 = xn+1 β + εn+1 ,
avec
E [εn+1 ] = 0, var [εn+1 ] = σ 2 et Cov (εn+1 , εi ) = 0
Dr OUATTARA Mory Régression Multiple 42 / 111
Prévision : Ajustement
0
Soit xn+1 = [xn+1,1 , . . . , xn+1,p ] et souhaite prédire le yn+1 associé qui est définie
par :
0
ybn+1 = xn+1 βb
où
0 0 0
εbn+1 = (yn+1 − ybn+1 ) = xn+1 β − xn+1 βb + εn+1 = xn+1 (β − β)
b + εn+1
Dr OUATTARA Mory Régression Multiple 43 / 111
Erreur de prévision
L’erreur de prévision εbn+1 = (yn+1 − ybn+1 ) satisfait les propriétés suivantes :
Propriétés
(
εn+1 ] = 0
E [b
0
Var (ε) = σ 2 (1 + xn+1 (X 0 X )−1 xn+1 )
Dr OUATTARA Mory Régression Multiple 44 / 111
Intervalle de prédiction
On montre que
Yn+1 − Ybn+1
p 0
∼ T (n − p − 1)
σ
b (1 + xn+1 (X 0 X )−1 xn+1 )
On en déduit l’intervalle de prédiction qui est :
q
[Ybn+1 ± tn−p−1,1−α/2 σ
b 0
(1 + xn+1 (X 0 X )−1 xn+1 )]
Dr OUATTARA Mory Régression Multiple 45 / 111
Intervalle de confiance
0
On veut construire un intervalle de confiance du paramètre E (Yn+1 ) = Xn+1 β
On sait que
0 0
Ybn+1 ∼ N(Xn+1 β, σ 2 Xn+1 (X 0 X )−1 Xn+1 )
d’où
Yn+1 − Xn+1 β
p 0
∼ T (n − p − 1)
σ
b (1 + xn+1 (X 0 X )−1 xn+1 )
On en déduit l’intervalle de confiance qui est :
q
[Ybn+1 ± tn−p−1,1−α/2 σ
b 0
(1 + xn+1 (X 0 X )−1 xn+1 )]
Dr OUATTARA Mory Régression Multiple 46 / 111
Exemple des données poids de naissance.
Dr OUATTARA Mory Régression Multiple 47 / 111
Analyse des résidus
Dr OUATTARA Mory Régression Multiple 48 / 111
Analyse des résidus
Dr OUATTARA Mory Régression Multiple 49 / 111
Rappels régression linéaire multiple
p
X
Y = β0 + βj x j + ε
j=1
Un peu de géométrie
Dr OUATTARA Mory Régression Multiple 50 / 111
Estimateurs par la méthode MCO
La solution du système des équations fournit les estimateurs des paramètres
β0 , . . . , βp que l’on note βb0 , . . . , βbp
β = (X 0 X )−1 X 0 y
Vecteur des valeurs ajustées : Ŷ = X β̂ = X (X 0 X )−1 X 0 Y
Vecteur des résidus : ε̂ = Y − Ŷ
Pn
Somme des carrés résiduelle : SCR = i=1 ε2i
Pn
Somme des carrés totale : SCT = i=1 (Yi − Ȳ )2
Pn
Somme des carrés expliquée : SCE = i=1 (Ŷi − Ȳ )2
Équation d’analyse de la variance : SCT = SCE + SCR
Coefficient de détermination : R 2 = 1 − SCR/SC
Dr OUATTARA Mory Régression Multiple 51 / 111
Moindres carrés
ŷ = X β̂ = Ay
y − ŷ = y − X β̂ ⊥ W donc (y − Xb)0 Xu = 0
X 0 y = X 0 X β̂ Equations normales
β̂ = (X 0 X )−1 X 0 y
Projecteur A = X (X 0 X )−1 X 0
β est un estimateur de variance minimale de β parmi les estimateurs linéaires sans
biais
β est un estimateur du maximum de vraisemblance si résidus gaussiens iid
β est un Estimations non uniques de β si X 0 X non inversible mais projection ŷ
unique
Dr OUATTARA Mory Régression Multiple 52 / 111
Variance des estimations
V (β) = σ 2 (X 0 X )−1
Estimations imprécises si multicolinéarité
Estimation de σ 2
n
2 1 X
σ
b = εb2i
n−p−1
i=1
Dr OUATTARA Mory Régression Multiple 53 / 111
Qualité de l’ajustement
Le R 2 : cosinus carré de l’angle entre et y − ȳ et W
SCR
R2 = 1 −
SCT
augmente avec le nombre de variables incluses dans le modèle
⇒ Ce critère ne peut pas être utilisé dans une procédure de choix de modèle.
Analyse de variance= test de nullité de R 2 : absence totale de liaison
Dr OUATTARA Mory Régression Multiple 54 / 111
Qualité de l’ajustement
Le coefficient
2 SCR/(n − p − 1)
Rajust =1−
SCT /(n − 1)
2 σ2
Estime le Rpopulation =1− σY2
peut prendre des valeurs négatives,
n’augmente pas forcément lorsque le nombre de variables introduites dans le
modèle augmente.
augmente, permet de comparer des modèles ayant le même nombre de
variables
⇒ Ce critère peut être utilisé dans une procédure de choix de modèle.
Dr OUATTARA Mory Régression Multiple 55 / 111
Exemple : données auto
Dr OUATTARA Mory Régression Multiple 56 / 111
La multi colinéarité approchée
Dr OUATTARA Mory Régression Multiple 57 / 111
Estimation des paramètres
Dr OUATTARA Mory Régression Multiple 58 / 111
La multi colinéarité approchée
Dr OUATTARA Mory Régression Multiple 59 / 111
Détection
Étude de la matrice de corrélation
Dr OUATTARA Mory Régression Multiple 60 / 111
Analyse des facteurs d’inflation de la variance
σ 2 −1 σ2 1 σ2
V (β̂j ) = Rj,j = 2
= VIF
n n 1 − R (x1 ; x1 , x2 , ..., xp ) n
R 2 (x1 ; x1 , x2 , ..., xp )
Dr OUATTARA Mory Régression Multiple 61 / 111
Sélection de variables
Objectif : Sélectionner parmi les p variables explicatives, les q ≤ p variables qui
donnent le “meilleur” modèle pour prédire Y.
Il va donc falloir :
Définir un critère qui permet de comparer deux modèles n’ayant pas
nécessairement le même nombre de variables explicatives.
Définir un procédure qui permet "d’optimiser" ce critère parmi tous les
modèles. On parle de procédure de choix de modèle.
Dr OUATTARA Mory Régression Multiple 62 / 111
Les critères de choix : Cp de mallow
Le Cq de Mallows :
SCR0
Cq = − n + 2(q + 1)
SCR1 /(n − q − 1)
où
SCR1 est évalué pour le modèle complet à p variables,
SCR0 est évalué pour le modèle réduit à q variables.
Meilleur modèle (à q variables) = argmin Cp(q)
q
⇒ Ce critère doit être comparé à q + 1 dans une procédure de choix de modèle et
donne une valeur, Cp inférieure et proche de (q + 1).
Dr OUATTARA Mory Régression Multiple 63 / 111
Les critères de choix : vraisemblance pénalisée
AIC (Akaike Information Criterion)
AIC = −2ln(L) + 2k
BIC (Bayesian Information Criterion) :
BIC = −2ln(L) + kln(n)
où
L est la vraisemblance du modèle estimé (vraisemblance maximisée)
k est le nombre de paramètres du modèle.
Dr OUATTARA Mory Régression Multiple 64 / 111
Les critères de choix : AIC et BIC en régression multiple :
k = q+1 (paramètres β1 , . . . , βq etσ)
−2ln(L) = n[ln(2πσ̃) + 1]
b = SCR/(n − p − 1)
où σ̃ = SCR/n souvent remplacé par σ
Les critères Les AIC et BIC peuvent alors être simplifiés :
AIC = nln(SCR) + 2k BIC = nln(SCR) + kln(n)
σ ) + 2k BIC = nln(b
AIC = nln(b σ ) + kln(n)
⇒ Ces critères doivent être minimisés dans une procédure de choix de modèle
Dr OUATTARA Mory Régression Multiple 65 / 111
Procédure exhaustive de sélection de variables
Il s’agit d’évaluer avec l’un des critères précédent tous les modèles de régression à
q ≤ p variables et retenir le meilleur mais, le nombre de modèles à q variables est
p!
Cpq =
q!(p − q)!
le nombre total de modèles à considérer est 2p − 1
Le nombre de modèles croît exponentiellement avec p
Par exemple, si 30 variables sont à disposition, on devrait considérer
23 0 = 109 modèles...
. Impossible en pratique dès que p grandit.
Solution :
Procédure pas à pas ascendante (forward stepwise)
Procédure pas à pas descendante (backward stepwise)
Dr OUATTARA Mory Régression Multiple 66 / 111
Les logiciels classiques utilisent des tests d’arret
Dr OUATTARA Mory Régression Multiple 67 / 111
Dr OUATTARA Mory Régression Multiple 68 / 111
Ajuster ou prédire ?
Les critères précédents utilisent deux fois les données : une fois pour estimer,
une autre pour mesurer la qualité
Prédire les données futures
Minimiser l’espérance de l’erreur quadratique de prédiction
E (y − ŷ )2
Dr OUATTARA Mory Régression Multiple 69 / 111
Solution pratique : la validation croisée
Leave one out : chaque observation est estimée à l’aide des n-1 autres
I résidu prédit
yi − ŷi
yi − ŷi−i =
1 − hi
I hi terme diagonal du projecteur X (X 0 X )−1 X 0
PRESS predicted error sum of squares
n
X
(yi − ŷi−i )2
i=1
quelques press
modèle complet : 732726946
puissance poids : 308496438
puissance : 327142373
Dr OUATTARA Mory Régression Multiple 70 / 111
Sélectionner ou non
Contestable si on a un modèle : difficile de proposer à l’utilisateur une formule qui
ne tient pas compte de variables pourtant influentes et ne permet pas de
quantifier l’effet de leurs variations sur la réponse Y.
Dr OUATTARA Mory Régression Multiple 71 / 111
Problèmes de la régression
σ̂ε 1
Variance de l’estimateur des MCO V (β̂j ) = νj Avec νj =
n 1 − Rj2
Rj2 est le coefficient de détermination de la régression de x j sur les (p-1) autres
variables.
Problème de Colinéarité : Rj2 ≈ 1 ⇒ νj ≈ ∞
1
P
σ̂ε = n−p i ε̂i Variance estimée de l’erreur : SCR (somme des carrés des
résidus) : indicateur de qualité de la régression, divisé par les degrés de liberté.
Problème de Dimensionnalité : p ≈ n ⇒ σ̂ε ≈ ∞ et ; p > n ⇒ X 0 X n’est pas
inversible
Conséquence : Ces problèmes entraînent une variance élevée de l’estimation
c.-à-d. les coefficients estimés sont très erratiques, exagérément dépendants de
l’échantillon d’apprentissage.
Idée : Rechercher des estimateurs biaisées avec une variance petite
Dr OUATTARA Mory Régression Multiple 72 / 111
Le compromis biais variance en apprentissage automatique
Soit xn+1 supplémentaire
1 p
ŷn+1 = β̂0 + β̂1 xn+1 + . . . + β̂p xn+1
La qualité de la prédiction est évalué l’aide de :
E [(yn+1 − ŷn+1 )2 ] = σ 2 + (E (ŷn+1 ) − yn+1 )2 + E [((ŷn+1 − E (ŷn+1 ))2 ]
σ 2 : Erreur incompressible. Variance de la cible Y, on ne pourra jamais faire mieux.
(E (ŷn+1 ) − yn+1 )2 : Biais 2 Indique les insuffisances intrinsèques du modèle
(variables explicatives manquantes, ou forme de la relation non captée, etc.).
E [((ŷn+1 − E (ŷn+1 ))2 ] Variance. Dispersion de la prédiction autour de sa propre
espérance. Témoigne de l’instabilité du modèle, sa dépendance aux fluctuations de
l’échantillon d’apprentissage.
Dr OUATTARA Mory Régression Multiple 73 / 111
Principe de la régularisation
E [(yn+1 − ŷn+1 )2 ] = σ 2 + (E (ŷn+1 ) − yn+1 )2 + E [((ŷn+1 − E (ŷn+1 ))2 ]
Objectif : éviter le surapprentissage c.-à-d. apprendre de l’échantillon de données
d’apprentissage, mais pas trop. . . (pas de sur dépendance)
Quelle principe ? Accepter une légère augmentation du biais pour obtenir une
réduction plus que proportionnelle de la variance
Comment ? Diriger (réguler) un peu plus fermement la modélisation en imposant
des contraintes sur les paramètres estimés de la régression (contraintes sur les
valeurs que pourront prendre les β̂j dans leur ensemble pour éviter qu’elles soient
totalement erratiques)
Au final, le modèle sera plus performant puisqu’on diminue l’erreur de
prédiction espérée
Dr OUATTARA Mory Régression Multiple 74 / 111
Comment garder toutes les variables
Régression sur composantes principales
Régression PLS
Régression ridge
Lasso
Utile pour le cas maudit : p>n
Mais : perte de certaines propriétés : estimateurs biaisés, non-invariance par
changement d’échelle
Nécessité de centrer réduire au préalable
Dr OUATTARA Mory Régression Multiple 75 / 111
Regression sur Composantes
Prinicpales
PCR
Dr OUATTARA Mory Régression Multiple 76 / 111
PCR
ACP sur X
Chaque composante est une combinaison linéaire de tous les prédicteurs
Régression ascendante sur la première composante, puis sur les deux
premières etc.
Composantes principales non corrélées entre elles
On garde tous les prédicteurs
Dr OUATTARA Mory Régression Multiple 77 / 111
ACP
Dr OUATTARA Mory Régression Multiple 78 / 111
ACP
Dr OUATTARA Mory Régression Multiple 79 / 111
PCR
Dr OUATTARA Mory Régression Multiple 80 / 111
PCR
Dr OUATTARA Mory Régression Multiple 81 / 111
PCR
Dr OUATTARA Mory Régression Multiple 82 / 111
PCR les +/-
Avantages
I Gère les jeux de données "Larges" (p>n)
I Diminue la variabilité des estimateurs en raison de multicolinearité
I Outils de visualisation
Inconvénients
I Estimateurs biaisés
I Solution non équivalente par rapport au changement d’échelle.
I Les composantes sont dépendantes de la structure de corrélation de X sans
tenir compte de la corrélation entre Y et les prédicteurs
Dr OUATTARA Mory Régression Multiple 83 / 111
Régression PLS
Dr OUATTARA Mory Régression Multiple 84 / 111
PLS
projection sur des combinaisons linéaires des prédicteurs non corrélées entre
elles
différence essentielle : composantes PLS optimisées pour être prédictives de
Y, alors que les composantes principales ne font qu’extraire le maximum de
variance des prédicteurs sans tenir compte de Y
Dr OUATTARA Mory Régression Multiple 85 / 111
Régression PLS
Recherche des informations sur X qui explique le mieux Y
t = Xw telle que le critère max cov 2 (y , Xw )
Compromis entre maximiser la corrélation entre t et y (régression classique)
et maximiser la variance de t (ACP des prédicteurs)
cov 2 (y , Xw ) = r 2 (y , Xw )V (Xw )V (y )
Dr OUATTARA Mory Régression Multiple 86 / 111
Régression PLS
Solution
w1 (p × 1) tels que les w1j sont proportionnels aux covariances cov (y , x j )
Régression PLS avec une composante y = c1 t1 + y1
deuxième composante PLS t2 en itérant le procédé : régression de y1 sur les
résidus des régressions des xj avec t1 puis y = c1 t1 + c2 t2 + y2 etc.
Dr OUATTARA Mory Régression Multiple 87 / 111
Régression PLS
Nombre de composantes PLS choisi par validation croisée
La première composante PLS est toujours plus corrélée avec Y que la
première composante principale
deuxième composante PLS t2 en itérant le procédé : régression de y1 sur les
résidus des régressions des xj avec t1 puis y = c1 t1 + c2 t2 + y2 etc.
cov (y , t) = r (y , t)σ(t)σ(y ) ≥ cov (y , c1 ) = r (y , c1 )σ(c)σ(y )
donc r (y , t)σ(t) ≥ r (y , c1 )σ(c1 ) σ(c1 ) ≥ σ(t)
d’où r (y , t) ≥ r (y , c1 )
Dr OUATTARA Mory Régression Multiple 88 / 111
Conclusions
Avantage de la régression PLS : simplicité de son algorithme. Ni inversion, ni
diagonalisation de matrices, mais seulement une succession de régressions
simples, autrement dit des calculs de produits scalaires. On peut donc traiter
de très grands ensembles de données.
la régression PLS donne en pratique d’excellentes prévisions, même dans le
cas d’un petit nombre d’observations et d’un grand nombre de variables.
Dr OUATTARA Mory Régression Multiple 89 / 111
Les modèles linéaires généralisés
Dr OUATTARA Mory Régression Multiple 90 / 111
Objectif : Etudier la liaison entre une variable dépendante ou réponse Y et un
ensemble de variables explicatives ou prédicteurs X1 , . . . , Xp
Il comprend :
le modèle linéaire général (régression multiple, analyse de la variance et
analyse de la covariance)
le modèle log-linéaire
la régression logistique
la régression de Poisson
Dr OUATTARA Mory Régression Multiple 91 / 111
Les composantes du modèle linéaire généralisé
Le modèle linéaire généralisé est formé de trois composantes :
Composante aléatoire : la variable de réponse Y, à laquelle est associée une
loi de probabilité.
Ex : Y Gaussienne pour le modèle linéaire ;
Composante déterministe : les variables explicatives X1 , . . . , Xp utilisées
comme prédicteurs dans le modèle
Le lien : décrit la relation fonctionnelle entre la combinaison linéaire des
variables X1 . . . .Xp et l’espérance mathématique de la variable de réponse
Y
Ex : g (E [Y |X = x]) = x 0 β. pour le modèle linéaire
Dr OUATTARA Mory Régression Multiple 92 / 111
Composante aléatoire
La loi de probabilité de la composante aléatoire Y appartient à la famille
exponentielle
Une loi de probabilité P appartient à une famille de lois de type
exponentielle Pθ , θ ∈ Rp si il existe une mesure dominant µ (Lebesgue ou
mesure de comptage le plus souvent) telle que les lois Pθ admettent pour
densité par rapport à ν
fθ (y ) = exp(Q(θ)Tj (y ) − α(θ) − c(y ))
où T est une fonction réelle et Q C 1 strictement monotone
Dr OUATTARA Mory Régression Multiple 93 / 111
Composante aléatoire
Exemple :
Loi exponentielle E(λ) :
λ exp(−λy ) = exp(−λy + log(λ))
T = id, Q(λ) = −λ et α(λ) = −log (λ)
Loi de Bernoulli Ber (p)
y 1−y p
p (1 − p) = exp y log + log(1 − p)
1−p
T = id, Q(p) = p/(1 − p), et α(p) = − log(1 − p)
Loi de Poisson P(λ)
λy
exp(−λ) = exp(y log(λ) − λ − log(y !))
y!
On pose T = id, Q(λ) = log(λ), et α = id.
Dr OUATTARA Mory Régression Multiple 94 / 111
Composante aléatoire
Notons (Y1 , . . . ., Yn ) un échantillon aléatoire de taille n de la variable de
réponse Y. Les Yi sont indépendantes et peuvent être binaires (
succès-échecs, présence-absence ) : Loi de Bernoulli, loi binomiale
Yi peut être distribuée selon une loi de Poisson
Yi peut être distribuée selon une loi normale
Dr OUATTARA Mory Régression Multiple 95 / 111
Composante déterministe
La composante déterministe, exprimée sous forme d’une combinaison linéaire
β0 + β1 X1 + . . . + βp Xp (appelée aussi prédicteur linéaire) précise quels sont
les prédicteurs.
Certaines des variables Xj peuvent se déduire de variables initiales utilisées
dans le modèle, par exemple :
X3 = X1 ∗ X2
de façon à étudier l’interaction entre X1 et X2
X4 = X12
de façon à prendre en compte un effet non linéaire de la variable X1
Dr OUATTARA Mory Régression Multiple 96 / 111
Le Lien
La troisième composante d’un modèle linéaire généralisé est le lien entre la
composante aléatoire et la composante déterministe.
Il spécifie comment l’espérance mathématique de Y notée µ est liée au
prédicteur linéaire construit à partir des variables explicatives.
On peut modéliser l’espérance µ directement ( régression linéaire usuelle ) ou
modéliser une fonction monotone g (µ) de l’espérance :
g (µ) = β0 + β1 X1 + . . . + βp Xp
g inversible et continument différentiable
Dr OUATTARA Mory Régression Multiple 97 / 111
Le lien
La fonction de lien g (µ) = log (µ) permet par exemple de modéliser le
logarithme de l’espérance. Les modèles utilisant cette fonction de lien sont
des modèles log-linéaires.
µ
La fonction de lien g (µ) = log ( 1−µ ) modélise le logarithme du rapport des
chances. Elle est appelée logit et est adaptée au cas où µ est comprise entre
0 et 1 ( par exemple la probabilité de succès dans une loi binomiale).
Dr OUATTARA Mory Régression Multiple 98 / 111
Le lien
A toute loi de probabilité de la composante aléatoire est associée une
fonction spécifique de l’espérance appelée paramètre canonique.
Pour la distribution normale il s’agit de l’espérance elle même.
Pour la distribution de Poisson le paramètre canonique est le logarithme de
l’espérance.
Pour la distribution binomiale le paramètre canonique est le logit de la
probabilité de succès.
La fonction de lien qui utilise le paramètre canonique dans la famille des
modèles linéaires généralisés, est appelée la fonction de lien canonique.
En pratique, dans de nombreux cas les modèles linéaires généralisés sont
construits en utilisant la fonction de lien canonique.
Dr OUATTARA Mory Régression Multiple 99 / 111
Loi de probabilité de la réponse Y
La loi de probabilité de la réponse Yi doit appartenir à la famille exponentielle
yi θi − b(θi )
fθi (yi ) = exp + c(yi , φ)
a(φ)
Les fonctions a, b et c sont spécifiées en fonction du type de loi exponentielle.
θi et φ sont des paramètres inconnus
On montre que :
E (Yi ) = b 0 (θi ) et V (Yi ) = b 00 (θi )ai (φ)
Les lois de probabilités telles que la loi normale, la loi binomiale, la loi de
Poisson, la loi Gamma et la loi de Gauss inverse appartiennent à la famille
exponentielle décrite précédemment.
Dr OUATTARA Mory Régression Multiple 100 / 111
Composantes de la famille exponentielle
Distribution θ(µ) b(θ) a(φ0 )
θ2
Normale N(µ, σ 2 ) µ 2 σ2
µ
Bernoulli Ber (µ) log ( 1−µ ) log (1 + e θ ) 1
Poisson P(µ) log (µ) eθ 1
Gamma(µ, ν) − µ1 -log (−θ) 1
ν
1
Gauss Inverse IG(µ, σ 2 ) - 2µ1 2 −(−2θ) 2 σ 2
Dr OUATTARA Mory Régression Multiple 101 / 111
Espérance et variance
Distribution E (Y ) = b 0 (θ) V (Y ) = b 00 (θ)a(φ0 )
θ2
Normale N(µ, σ 2 ) µ=θ 2
eθ
Bernoulli B(1, µ) µ = 1+eθ µ(1 − µ)
Poisson P(µ) µ = e ( θ) µ
µ2
Gamma(µ, ν) µ = − θ1 ν
1
Gauss Inverse IG(µ, σ 2 ) µ = (−2θ) 2 3 2
µ σ
Dr OUATTARA Mory Régression Multiple 102 / 111
Vraisemblance et estimation
On introduit alors une fonction de lien g inversible et continument différentiable
telle que ηi = Xi β = g (µi ) = g (E (Yi )).
Quand on choisit la fonction g de telle sorte que ηi = θi on parle alors de fonction
de lien canonique.
A partir de l’échantillon (Yi , Xi ), on forme alors la log vraisemblance (on prend ici
le lien canonique)
n n
X X yi θi − b(θi )
log (L(β)) = log (f (Yi )) = { + c(yi , φ)}
a(φ)
i=1 i=1
n
X yi ηi − b(ηi )
= { + c(yi , φ)}
a(φ)
i=1
Dr OUATTARA Mory Régression Multiple 103 / 111
Vraisemblance et estimation
On peut alors définir l’estimateur au maximum de vraisemblance de β par
n
X yi θi − b(θi )
β̂ = argmax { + c(yi , φ)}
β a(φ)
i=1
n
1 X yi ηi − b(ηi )
= argmin − { + c(yi , φ)}
β n a(φ)
i=1
ou de façon équivalente (en admettant la convexité) β̂ est solution de
n
1 X yi ηi − b(ηi )
− { + c(yi , φ)} = 0
n a(φ)
i=1
On définit également la prédiction Ŷi de Yi comme
Ŷi = g −1 (Xi β̂)
Dr OUATTARA Mory Régression Multiple 104 / 111
Principes d’estimation d’un modèle linéaire généralisé
Pour la plupart des modèles linéaires généralisés, les équations qui
déterminent les paramètres au sens du maximum de vraisemblance sont non
linéaires et les estimateurs n’ont pas d’autres expressions formulables que
comme solutions de ces équations.
Les logiciels calculent les estimations en utilisant un algorithme itératif pour
la résolution d’équations non linéaires.
Pour calculer (approcher) l’estimateur au maximum de vraisemblance, on
utilise un algorithme de type Newton-Raphson.
Dr OUATTARA Mory Régression Multiple 105 / 111
Loi asymptotique des estimateurs
On note I(γ) = −E (52 ln (γ)).
Consistence et normalité asymptotique : Sous certaines conditions (cf.
Fahrmeir and Kaufman - 1985), on peut montrer que, pour tout vrai paramètre β
P
|β̂ − β| → 0
β̂ est asymptotiquement gaussien
√ L
n|β̂ − β| → N (0, I(β)−1 )
Dr OUATTARA Mory Régression Multiple 106 / 111
Le choix du modèle
On peut parfois essayer différentes fonction de réponses et retenir celle qui
minimise la déviance D.
Deux statistiques sont utiles pour juger de l’adéquation du modèle aux
données
1 la déviance normalisée (scaled deviance)
2 la statistique du khi-deux de Pearson
Pour mesurer l’adéquation du modèle étudié aux données, on construit tout
d’abord un modèle saturé.
Dr OUATTARA Mory Régression Multiple 107 / 111
Déviance
Modèle saturé
Le modèle saturé est le modèle à n paramètres où chaque moyenne de Yi est
remplacée par Yi . En se rappelant que θi = g (E (Yi )), le modèle saturé a alors la
log-vraissemblance
n
sat
X Yi g (Yi ) − b(g (Yi )
log L = { + c(Yi , φ)}
ai (φ)
i=1
Modèle null
Le modèle null est le modèle à 1 paramètre : l’intercept seul. On note log Lnull sa
log-vraissemblance.
Dr OUATTARA Mory Régression Multiple 108 / 111
Déviance
On définit alors la déviance (ou déviance résiduelle) pour une estimation β̂ comme
n
X Yi g (Yi ) − Xi β̂ − (b(g (Yi )) − b(Xi β̂))
D(β̂) = log Lsat − log L(β̂) = {
ai (φ)
i=1
Lorsque le modèle étudié est exact, la déviance normalisée D suit
approximativement une loi du khi-deux à n-K degrés de liberté.
Dr OUATTARA Mory Régression Multiple 109 / 111
Conclusions
Dr OUATTARA Mory Régression Multiple 110 / 111
Bibliographie
Ces Livres sont disponibles gratuitement en ligne.
G. Gasso et A. Rakotomamonjy :
https ://moodle.insa-rouen.fr/mod/resource/view.php ?id=1919
Dr OUATTARA Mory Régression Multiple 111 / 111