0% ont trouvé ce document utile (0 vote)
165 vues111 pages

Reression Multiple

Ce document présente les concepts de base de la régression multiple. Il définit les notions de fonction de lien, fonction de perte, fonction de coût et présente quelques méthodes classiques de régression comme la régression linéaire multiple, la régression logistique. Le document illustre ces concepts avec un exemple sur la modélisation du poids des bébés à la naissance.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
165 vues111 pages

Reression Multiple

Ce document présente les concepts de base de la régression multiple. Il définit les notions de fonction de lien, fonction de perte, fonction de coût et présente quelques méthodes classiques de régression comme la régression linéaire multiple, la régression logistique. Le document illustre ces concepts avec un exemple sur la modélisation du poids des bébés à la naissance.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Régression Multiple

Dr OUATTARA Mory

Dr OUATTARA Mory Régression Multiple 1 / 111


1 Rappels sur la régression multiple

2 La régression

3 Modélisation

4 Qualité d’ajustement

5 Prévision

6 Traitement de la multicolinéarité

7 Régression sur composantes Principales

8 Objectif

Dr OUATTARA Mory Régression Multiple 2 / 111


Notations

 
x1
 x2   0
x =  .  = x1 x2 . . . xp est le vecteur des p observations
 
 .. 
xp
Une observation xi , élément de Rp où p est la taille des variables, est de la
forme xi = [xi1 xi2 . . . xip ]
 
x11 x12 . . . x1p
x21 x22 . . . x2p 
la matrice des n des observations est la forme X =  ..
 

 . 
xn1 xn2 . . . xnp

Dr OUATTARA Mory Régression Multiple 3 / 111


Définitions

Produit scalaire : soit x et y deux vecteurs x.y = x 0 y = x1 y1 + · · · + xp yp



Norme euclidienne : k x k= x 0x
Pp
Norme L1 : k x k21 = i=1 |xi |
Pp 2
Norme L2 : k x k22 = i=1 |xi |

x
Normaliser x revient à remplacer x par kxk

Dr OUATTARA Mory Régression Multiple 4 / 111


Interprétation du produit scalaire

Dr OUATTARA Mory Régression Multiple 5 / 111


Régression : Ajuster une courbe sur les données

Classification supervisée : pour x prédire y la classe d’appartenance de x

Régression : pour x prédire la valeur numérique y pour x

En règle générale la nature de la régression est liée à une fonction :

de lien que f (x, β)

de coût ou de risque R(f )

Dr OUATTARA Mory Régression Multiple 6 / 111


Fonctions de lien

Sans être exhaustif

(l1 ) Lien linéaire : f (x) = α + βx avec β et x ∈ Rp et α est un élément de R

(l2 ) Lien polynomiale f (x) = α + β1 x + β2 x 2 + ... avec β et x ∈ Rp

1
(l3 ) Lien Logistique : f (x) = g (βx + α) avec g (u) = 1+e −u

Dr OUATTARA Mory Régression Multiple 7 / 111


Fonctions de Perte

Sans être exhaustif

Soit z = f (x) la prédiction de x par la fonction de lien f et y la valeur observée.

(p1 ) L(y , z) = (y − z)2 le carré de l’erreur

(p2 ) L(y , z) = |y − z| l’erreur absolue

(p3 ) L(y , z) = −yln(z) − (1 − y )ln(1 − z) erreur en régression logistique y ∈ [0, 1]


et z ∈ {0, 1}

Dr OUATTARA Mory Régression Multiple 8 / 111


Fonctions de coût à minimiser

Sans être exhaustif

Soit z = f (x) la prédiction de x par la fonction de lien f et y la valeur observée.

1
Pn
(c1 ) J(h) = n i=1 L(f (Xi ), yi ) Moyenne des pertes

(c2 ) J(h) = maxi L(f (Xi ), yi ) La perte maximale


Pn
(c3 ) J(h) = i=1 wi L(f (Xi ), yi ) coût pondéré

1
Pn
(c4 ) J(h) = n i=1 L(f (Xi ), yi ) + λ k w k2 coût avec une pénalité de type L2

1
Pn
(c5 ) J(h) = n i=1 L(f (Xi ), yi ) + λ k w kL1 coût avec une pénalité de type L1

Dr OUATTARA Mory Régression Multiple 9 / 111


Quelques méthodes classiques de régression

Méthode des moindre carrés : (l1 ) + (p1 ) + (c1 )

Méthode des Moindre carrés pondérés (l1 ) + (p1 ) + (c3 )

Régression RIDGE (l1 ) + (p1 ) + (c4 )

Régression LASSO (l1 ) + (p1 ) + (c5 )

Régression Logistique (l3 ) + (p3 ) + (c1 )

Dr OUATTARA Mory Régression Multiple 10 / 111


Exemple

On cherche à modéliser la relation entre poids des bébés à naissance et l’âge, le


poids et le statut tabagique de la mère durant la grossesse. On pose :
y = poids de naissance en grammes (bwt),
x1 = âge de la mère (age),
x2 = poids de la mère en kilos (weight),
x3 = statut tabagique de la mère pendant la grossesse (smoke) codée 1=oui
et 0=non.

Modèle de la forme
Yi ≈ f (xi 2, xi 2, xi 3)
On suppose que cette relation est linéaire de la forme :

y = β0 + β1 x1 + β2 x2 + β3 x3

Dr OUATTARA Mory Régression Multiple 11 / 111


On utilise un échantillon de n = 1174 naissances pour lesquelles le poids du bébé,
l’âge, le poids et le statut tabagique de la mère, ont été mesurés.

Dr OUATTARA Mory Régression Multiple 12 / 111


Exemple graphique
Pour (l1 ) + (p1 ) + (c1 ) le problème se visualise :

Dr OUATTARA Mory Régression Multiple 13 / 111


Modélisation
Notations

X = [1, X1 | . . . |Xp ]
Xj est le vecteur de taille n correspondant à la j-ème variable

La i-ème ligne de la matrice X sera quant à elle notée xi0 = [1, xi1 , ..., xip ]

∀i ∈ 1, . . . , n yi = xi0 β + εi

n > p mais pas toujours.


Dr OUATTARA Mory Régression Multiple 14 / 111
Modélisation

Le problème mathématique s’écrit de la façon suivante :


n
X
arg min L(yi − f (xi ))
f ∈F
i=1

F : une classe de fonctions dans laquelle est supposée vivre la vraie fonction
inconnue.
n
F = f : Rp → R, f (x1 , . . . , xp ) = β0 + pj=1 βj xj }
P

n : nombre de données disponibles (tailles de l’échantillon)

L(·) est appelée fonction de coût ou fonction de perte.

Dr OUATTARA Mory Régression Multiple 15 / 111


Définition (Modèle de régression linéaire Multiple)

Un modèle de régression linéaire multiple est défini par une équation de la forme

∀i ∈ {1, . . . , n} yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + εi

les xij sont des nombres connus, non aléatoires, la variable xi1 valant
souvent 1 ∀ i ;

les paramètres βj du modèle sont inconnus, mais non aléatoires ;

εi : les erreurs (ou bruits) et elles sont supposées aléatoires.

Dr OUATTARA Mory Régression Multiple 16 / 111


Définition (Modèle de régression linéaire multiple)

Sous forme matricielle un modèle de régression linéaire Multiple est défini par une
équation de la forme

Y = Xβ + ε

Le vecteur Y = [y1 , . . . , yn ]0 aléatoire de dimension n

Une matrice X (n × (p + 1)) non aléatoire

1
Les coefficients β un vecteur de Rp des paramètres inconnus non aléatoires

Le vecteur ε = [ε1 , . . . , εn ]0 aléatoire

Pour pouvoir dire des choses pertinentes sur ce modèle, il faut néanmoins imposer
des hypothèses les concernant.

Dr OUATTARA Mory Régression Multiple 17 / 111


Les hypothèses H1 et H2

Y = Xβ + ε
Les hypothèses du modèle




 H1 : E(εi ) = 0 elle indique que les erreurs sont centrées




(H) H2 : Var (εi ) = σ 2 On parle d’hypothèse d’homogénéité des variances.





H : cov (ε , ε 0 ) = 0 ∀i 6= i 0 les termes d’erreur ε sont non corrélés.

3 i i i

Dans la suite on supposera

n > (p + 1) et rang (X ) = p + 1

Dr OUATTARA Mory Régression Multiple 18 / 111


Estimateur des moindres carrés ordinaires

L’estimateur des Moindres Carrés Ordinaires (MCO) β̂ minimise la quantité :


 2
n
X p
X
yi − βi xij  =k y − X β k2 = (y − X β)0 (y − X β)
i=1 j=1

Que l’on peut récrire


 2
n
X p
X
βb = Min yi − βi xij  = Min k y − X β k2 = Min(y − X β)0 (y − X β)
β β β
i=1 j=1

Dr OUATTARA Mory Régression Multiple 19 / 111


Notations Matricielles

Variable dépendante Valeurs Estimées Estimateurs des coefficients


    b 
y1 yb1 β0
 y2  yb2  βb1 
y =. yb =  .  βb =  . 
     
 ..   ..   .. 
yn ybn βbp

Dr OUATTARA Mory Régression Multiple 20 / 111


Estimateur des moindres carrés ordinaires

βb = Min(y − X β)0 (y − X β)
β

Qu’on peut réécrire comme

βb = Min(y 0 y + β 0 X 0 X β − 2β 0 X 0 y )
β

On dérive ensuite par rapport à β


∂F
= 2X 0 X β − 2X 0 y
∂β

Condition d’optimisation : 2X 0 X β − 2X 0 y = 0
Solution : β̂ = (X 0 X )−1 X 0 y
Rang (X ) = p + 1

Dr OUATTARA Mory Régression Multiple 21 / 111


Sorties R des données poids de naissance

Dr OUATTARA Mory Régression Multiple 22 / 111


Interprétation géométrique

ŷ = X β̂ = X (X 0 X )−1 X 0 y ∈ Rn est une combinaison linéaire des colonnes de


X

A = X (X 0 X )−1 X 0 est la matrice de projection dans Rn sur le sous-espace W


engendré par les colonnes de X .

ŷ est la projection D-orthogonale de y sur W avec la métrique D = n1 In


ε = y − ŷ = y − Aŷ = (I − A)y est la projection de y sur W ⊥ .

Dr OUATTARA Mory Régression Multiple 23 / 111


Prédictions et résidus

Une fois que β a été estimé, nous pouvons reconstruire nos données à l’aide de
notre modélisation. On construit les prédictions

p
X
yˆi = β̂0 + β̂1 xij
j=1

et les résidus

ε̂i = yi − yˆi

Dr OUATTARA Mory Régression Multiple 24 / 111


Estimation de σ 2

Selon la stratégie usuelle, on considère l’estimateur

n
2 1 X
σ̂ = ε̂2i
n−p−1
i=1

Sous les hypothèses retenues on peut montrer que :

E(σ̂ 2 ) = σ 2

Montrer le résultat précédent

Dr OUATTARA Mory Régression Multiple 25 / 111


Qualité d’ajustement linéaire

La notion de liaison entre X et y =⇒ qu’une variation de X entraine une variation


de y .
La décomposition de la somme des carrés des écarts des Y à la moyenne ȳ permet
d’expliquer la part de variation de y expliquée par X
n
X n
X n
X
(yi − ȳ )2 = (yi − ŷi )2 + (ŷi − ȳ )2
i=1 i=1 i=1
SCT SCR SCE

Dr OUATTARA Mory Régression Multiple 26 / 111


Preuve
On a (yi − ȳ ) = (yi − yˆi ) + (yˆi − ȳ )
n
X n
X
SCT = (yi − ȳ )2 = [(yi − yˆi ) + (yˆi − ȳ )]2
i=1 i=1
n
X n
X n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2 (yi − yˆi )(yˆi − ȳ )
i=1 i=1 i=1
Xn Xn Xn n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2[ (yi − yˆi )yˆi − ȳ (yi − yˆi )]
i=1 i=1 i=1 i=1
n
X n
X n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2 (yi − yˆi )yˆi
i=1 i=1 i=1
Xn Xn n
X n
X
= (yi − yˆi )2 + (yˆi − ȳ )2 + 2[β1 i + β2 i x i ]
i=1 i=1 i=1 i=1

SCT = SCR + SCE

Dr OUATTARA Mory Régression Multiple 27 / 111


Coefficient de détermination

Pn
2 SCE (ŷi − ȳ )2 SCR
R = = Pi=1
n 2
=1−
SCT i=1 (yi − ȳ ) SCT
Mesure la part de la variation de y expliquée par la variable x.
R 2 est compris entre 0 et 1

(
R 2 = 1 =⇒ SCR = 0 La liaison entre x et y est parfaitement lineaire
R 2 = 0 =⇒ SCE = 1 La liaison entre x et y est non lineaire

Dr OUATTARA Mory Régression Multiple 28 / 111


Coefficient de Corrélation

Pn
cov (x, y ) (xi − x̄)(yi − ȳ )
cor (x, y ) = p = qP i=1
var (x)var (y ) n 2
Pn 2
i=1 (xi − x̄) i=1 (yi − ȳ )
qP
n 2
i=1 (xi − x̄)
= β2 Pn 2
i=1 (yi − ȳ )

Le signe de la corrélation est le signe de la pente de la droite des moindres carrés

On montre par ailleurs que


Pn Pn
(xi − x̄)2 i=1 (ŷi − ȳ )
2
R 2 = β2 Pni=1 2
= Pn 2
= cor (x, y )2
(y
i=1 i − ȳ ) (y
i=1 i − ȳ )

Dr OUATTARA Mory Régression Multiple 29 / 111


Propriétés de βb

Sous les hypothèses retenues, on peut montrer que :

E(β)
b =β

b = (X 0 X )−1 σ 2
V(β)

Exercice : montrer les résultats précédents

Dr OUATTARA Mory Régression Multiple 30 / 111


Biais
L’estimateur βb des moindres carrés est sans biais :

E [β]
b =β

En effet,
b = E [(X 0 X )−1 X 0 Y ] = (X 0 X )−1 X 0 E [X β + ε] = (X 0 X )−1 X 0 X β = β
E [β]

Covariance
b = σ 2 (X 0 X )−1
Var [β]
En effet,
b = Var [(X 0 X )−1 X 0 Y ] = (X 0 X )−1 X 0 Var (Y )X (X 0 X )−1
Var [β]

= (X 0 X )−1 X 0 σ 2 In X (X 0 X )−1 = σ 2 (X 0 X )−1


On peut également montrer que βb est l’estimateur sans biais de variance
minimale ou encore estimateur BLUE (Best Linear Unbiased Estimator)

Dr OUATTARA Mory Régression Multiple 31 / 111


Cas Gaussien

On ajoute l’hypothèse de normalité des erreurs :

εi ∼ N(0, σ 2 ) ⇒ Yi ∼ N(0, σ 2 )

Remarques.

Sous l’hypothèse de normalité, V (ε) = V (Y ) = σ 2 In


implique que le εi et les Yi sont indépendants.

Dr OUATTARA Mory Régression Multiple 32 / 111


Estimateurs du maximum de vraisemblance de β et de σ 2

La fonction de vraisemblance L(β, σ 2 ) est la densité conjointe des Yi . Les


estimateurs β̃, σ̃ 2 qui maximisent L(β, σ 2 ) sont :

β̃ = (X 0 X )−1 X 0 Y

1 b 0 (Y − X β)
b −1
σ̃ 2 = (Y − X β)
n
σ̃ 2 est biaisé

Dr OUATTARA Mory Régression Multiple 33 / 111


Propriétés de β̃ et σ̃ 2

Sous les hypothèses du modèle :

β̃ ∼ N(β, σ 2 (X 0 X )−1 ) ⇒ βb ∼ N(β, σ 2 (X 0 X )−1 )


2

σ̃ 2 σ
∼ χ2 (n − p − 1) ⇒ n 2 ∼ χ2 (n − p − 1)
b
n2
σ σ
2 2
3 β̃ et σ̃ indépendants β et σ
b b ⇒ indépendant

Dr OUATTARA Mory Régression Multiple 34 / 111


Test de significativité du modèle

Nous allons tester

H0 : ”β1 = ... = βp = 0” contre H1 : ”∃j ∈ {1, ..., p}, βj 6= 0".

La statistique de test associée est

SCE /p
Fn =
SCR/(n − p − 1)

qui est distribuée sous H0 selon une loi de Fisher à p et n − p − 1 degrés de


libertés.
La zone de rejet associé à cette statistique est :

R =]fp,n−p−1,1−α , +∞[

Dr OUATTARA Mory Régression Multiple 35 / 111


Test de significativité d’un coefficient βj
Nous voulons tester

H0 : ”βj = 0” contre H1 : ”βj 6= 0".

On montre que
βbj − βj
√ ∼ t(n − p − 1)
σ
b cjj

où c00 , c11 , ..., cpp sont les éléments diagonaux de (X 0 X )−1

On utilise sous donc la statistique de test

βbj − βj
Tn = √ ∼ t(n − p − 1)
σ
b cjj

La zone de rejet associé à cette statistique est :

R =] − ∞, −tn−p−1,1−α/2 [∪]tn−p−1,1−α/2 , +∞[

Dr OUATTARA Mory Régression Multiple 36 / 111


Test de significativité d’un coefficient βj

Rejeter H0 signifie :

que la variable explicative Xj joue un rôle dans le modèle de régression,


c’est-à-dire que Xj apporte de l’information quant à la reconstruction de Y

que le coefficient βj est significativement non nul

que βj s’interprète comme le taux d’accroissement moyen de Y en fonction


d’une variation de Xj lorsque tous les autres régresseurs
X1 , . . . , Xj−1 , Xk+1 , . . . Xp restent fixés.

Dr OUATTARA Mory Régression Multiple 37 / 111


Exemple des données poids de naissance.

Dr OUATTARA Mory Régression Multiple 38 / 111


Contribution jointe d’un ensemble de régresseurs

On cherche à tester la nullité des q ≤ p premiers paramètres :

H0 : ”β1 = ... = βq = 0” contre H1 : ”∃j ∈ {1, ..., q}, βj 6= 0".

Cela revient à comparer deux modèles :

le modèle complet à p regresseurs (modèle 1) pour lequel on évalue la somme


des carrés des résidus SCR1

le modèle réduit à p − q regresseurs (modèle 0) pour lequel on évalue la


somme des carrés des résidus SCR0 .

Dr OUATTARA Mory Régression Multiple 39 / 111


Contribution jointe d’un ensemble de régresseurs

On peut montrer que sous H0 :

(SCR0 − SCR1 )/q


∼ F (q, n − p − 1)
SCR1 /(n − p − 1)
Nous en déduisons la zone de rejet associée à cette statistique de test :

R =]fq,n−p−1,1−α , +∞[
Remarque. Ce test est utile pour faire de la modélisation pas à pas et sélectionner
un ensemble optimal de régresseurs nécessaires à la reconstruction de Y .

Dr OUATTARA Mory Régression Multiple 40 / 111


Exemple des données poids de naissance

Dr OUATTARA Mory Régression Multiple 41 / 111


Prévision : définition

0
Soit xn+1 = [xn+1,1 , . . . , xn+1,p ] et souhaite prédire le yn+1 associé qui est définie
par :
0
yn+1 = xn+1 β + εn+1 ,
avec
E [εn+1 ] = 0, var [εn+1 ] = σ 2 et Cov (εn+1 , εi ) = 0

Dr OUATTARA Mory Régression Multiple 42 / 111


Prévision : Ajustement

0
Soit xn+1 = [xn+1,1 , . . . , xn+1,p ] et souhaite prédire le yn+1 associé qui est définie
par :
0
ybn+1 = xn+1 βb

0 0 0
εbn+1 = (yn+1 − ybn+1 ) = xn+1 β − xn+1 βb + εn+1 = xn+1 (β − β)
b + εn+1

Dr OUATTARA Mory Régression Multiple 43 / 111


Erreur de prévision

L’erreur de prévision εbn+1 = (yn+1 − ybn+1 ) satisfait les propriétés suivantes :

Propriétés
(
εn+1 ] = 0
E [b
0
Var (ε) = σ 2 (1 + xn+1 (X 0 X )−1 xn+1 )

Dr OUATTARA Mory Régression Multiple 44 / 111


Intervalle de prédiction

On montre que

Yn+1 − Ybn+1
p 0
∼ T (n − p − 1)
σ
b (1 + xn+1 (X 0 X )−1 xn+1 )

On en déduit l’intervalle de prédiction qui est :

q
[Ybn+1 ± tn−p−1,1−α/2 σ
b 0
(1 + xn+1 (X 0 X )−1 xn+1 )]

Dr OUATTARA Mory Régression Multiple 45 / 111


Intervalle de confiance

0
On veut construire un intervalle de confiance du paramètre E (Yn+1 ) = Xn+1 β
On sait que
0 0
Ybn+1 ∼ N(Xn+1 β, σ 2 Xn+1 (X 0 X )−1 Xn+1 )
d’où
Yn+1 − Xn+1 β
p 0
∼ T (n − p − 1)
σ
b (1 + xn+1 (X 0 X )−1 xn+1 )
On en déduit l’intervalle de confiance qui est :

q
[Ybn+1 ± tn−p−1,1−α/2 σ
b 0
(1 + xn+1 (X 0 X )−1 xn+1 )]

Dr OUATTARA Mory Régression Multiple 46 / 111


Exemple des données poids de naissance.

Dr OUATTARA Mory Régression Multiple 47 / 111


Analyse des résidus

Dr OUATTARA Mory Régression Multiple 48 / 111


Analyse des résidus

Dr OUATTARA Mory Régression Multiple 49 / 111


Rappels régression linéaire multiple

p
X
Y = β0 + βj x j + ε
j=1

Un peu de géométrie

Dr OUATTARA Mory Régression Multiple 50 / 111


Estimateurs par la méthode MCO

La solution du système des équations fournit les estimateurs des paramètres


β0 , . . . , βp que l’on note βb0 , . . . , βbp

β = (X 0 X )−1 X 0 y

Vecteur des valeurs ajustées : Ŷ = X β̂ = X (X 0 X )−1 X 0 Y


Vecteur des résidus : ε̂ = Y − Ŷ
Pn
Somme des carrés résiduelle : SCR = i=1 ε2i
Pn
Somme des carrés totale : SCT = i=1 (Yi − Ȳ )2
Pn
Somme des carrés expliquée : SCE = i=1 (Ŷi − Ȳ )2
Équation d’analyse de la variance : SCT = SCE + SCR
Coefficient de détermination : R 2 = 1 − SCR/SC

Dr OUATTARA Mory Régression Multiple 51 / 111


Moindres carrés

ŷ = X β̂ = Ay

y − ŷ = y − X β̂ ⊥ W donc (y − Xb)0 Xu = 0

X 0 y = X 0 X β̂ Equations normales

β̂ = (X 0 X )−1 X 0 y

Projecteur A = X (X 0 X )−1 X 0

β est un estimateur de variance minimale de β parmi les estimateurs linéaires sans


biais
β est un estimateur du maximum de vraisemblance si résidus gaussiens iid
β est un Estimations non uniques de β si X 0 X non inversible mais projection ŷ
unique

Dr OUATTARA Mory Régression Multiple 52 / 111


Variance des estimations

V (β) = σ 2 (X 0 X )−1
Estimations imprécises si multicolinéarité

Estimation de σ 2
n
2 1 X
σ
b = εb2i
n−p−1
i=1

Dr OUATTARA Mory Régression Multiple 53 / 111


Qualité de l’ajustement
Le R 2 : cosinus carré de l’angle entre et y − ȳ et W
SCR
R2 = 1 −
SCT
augmente avec le nombre de variables incluses dans le modèle
⇒ Ce critère ne peut pas être utilisé dans une procédure de choix de modèle.

Analyse de variance= test de nullité de R 2 : absence totale de liaison

Dr OUATTARA Mory Régression Multiple 54 / 111


Qualité de l’ajustement

Le coefficient
2 SCR/(n − p − 1)
Rajust =1−
SCT /(n − 1)
2 σ2
Estime le Rpopulation =1− σY2
peut prendre des valeurs négatives,
n’augmente pas forcément lorsque le nombre de variables introduites dans le
modèle augmente.
augmente, permet de comparer des modèles ayant le même nombre de
variables

⇒ Ce critère peut être utilisé dans une procédure de choix de modèle.

Dr OUATTARA Mory Régression Multiple 55 / 111


Exemple : données auto

Dr OUATTARA Mory Régression Multiple 56 / 111


La multi colinéarité approchée

Dr OUATTARA Mory Régression Multiple 57 / 111


Estimation des paramètres

Dr OUATTARA Mory Régression Multiple 58 / 111


La multi colinéarité approchée

Dr OUATTARA Mory Régression Multiple 59 / 111


Détection
Étude de la matrice de corrélation

Dr OUATTARA Mory Régression Multiple 60 / 111


Analyse des facteurs d’inflation de la variance

σ 2 −1 σ2 1 σ2
V (β̂j ) = Rj,j = 2
= VIF
n n 1 − R (x1 ; x1 , x2 , ..., xp ) n
R 2 (x1 ; x1 , x2 , ..., xp )

Dr OUATTARA Mory Régression Multiple 61 / 111


Sélection de variables

Objectif : Sélectionner parmi les p variables explicatives, les q ≤ p variables qui


donnent le “meilleur” modèle pour prédire Y.

Il va donc falloir :

Définir un critère qui permet de comparer deux modèles n’ayant pas


nécessairement le même nombre de variables explicatives.

Définir un procédure qui permet "d’optimiser" ce critère parmi tous les


modèles. On parle de procédure de choix de modèle.

Dr OUATTARA Mory Régression Multiple 62 / 111


Les critères de choix : Cp de mallow

Le Cq de Mallows :

SCR0
Cq = − n + 2(q + 1)
SCR1 /(n − q − 1)

SCR1 est évalué pour le modèle complet à p variables,
SCR0 est évalué pour le modèle réduit à q variables.

Meilleur modèle (à q variables) = argmin Cp(q)


q
⇒ Ce critère doit être comparé à q + 1 dans une procédure de choix de modèle et
donne une valeur, Cp inférieure et proche de (q + 1).

Dr OUATTARA Mory Régression Multiple 63 / 111


Les critères de choix : vraisemblance pénalisée

AIC (Akaike Information Criterion)

AIC = −2ln(L) + 2k

BIC (Bayesian Information Criterion) :

BIC = −2ln(L) + kln(n)


L est la vraisemblance du modèle estimé (vraisemblance maximisée)

k est le nombre de paramètres du modèle.

Dr OUATTARA Mory Régression Multiple 64 / 111


Les critères de choix : AIC et BIC en régression multiple :

k = q+1 (paramètres β1 , . . . , βq etσ)

−2ln(L) = n[ln(2πσ̃) + 1]

b = SCR/(n − p − 1)
où σ̃ = SCR/n souvent remplacé par σ

Les critères Les AIC et BIC peuvent alors être simplifiés :

AIC = nln(SCR) + 2k BIC = nln(SCR) + kln(n)


σ ) + 2k BIC = nln(b
AIC = nln(b σ ) + kln(n)
⇒ Ces critères doivent être minimisés dans une procédure de choix de modèle

Dr OUATTARA Mory Régression Multiple 65 / 111


Procédure exhaustive de sélection de variables

Il s’agit d’évaluer avec l’un des critères précédent tous les modèles de régression à
q ≤ p variables et retenir le meilleur mais, le nombre de modèles à q variables est
p!
Cpq =
q!(p − q)!

le nombre total de modèles à considérer est 2p − 1


Le nombre de modèles croît exponentiellement avec p
Par exemple, si 30 variables sont à disposition, on devrait considérer
23 0 = 109 modèles...
. Impossible en pratique dès que p grandit.
Solution :
Procédure pas à pas ascendante (forward stepwise)
Procédure pas à pas descendante (backward stepwise)

Dr OUATTARA Mory Régression Multiple 66 / 111


Les logiciels classiques utilisent des tests d’arret

Dr OUATTARA Mory Régression Multiple 67 / 111


Dr OUATTARA Mory Régression Multiple 68 / 111
Ajuster ou prédire ?

Les critères précédents utilisent deux fois les données : une fois pour estimer,
une autre pour mesurer la qualité

Prédire les données futures

Minimiser l’espérance de l’erreur quadratique de prédiction

E (y − ŷ )2

Dr OUATTARA Mory Régression Multiple 69 / 111


Solution pratique : la validation croisée

Leave one out : chaque observation est estimée à l’aide des n-1 autres
I résidu prédit
yi − ŷi
yi − ŷi−i =
1 − hi
I hi terme diagonal du projecteur X (X 0 X )−1 X 0
PRESS predicted error sum of squares
n
X
(yi − ŷi−i )2
i=1

quelques press
modèle complet : 732726946
puissance poids : 308496438
puissance : 327142373

Dr OUATTARA Mory Régression Multiple 70 / 111


Sélectionner ou non
Contestable si on a un modèle : difficile de proposer à l’utilisateur une formule qui
ne tient pas compte de variables pourtant influentes et ne permet pas de
quantifier l’effet de leurs variations sur la réponse Y.

Dr OUATTARA Mory Régression Multiple 71 / 111


Problèmes de la régression
σ̂ε 1
Variance de l’estimateur des MCO V (β̂j ) = νj Avec νj =
n 1 − Rj2
Rj2 est le coefficient de détermination de la régression de x j sur les (p-1) autres
variables.
Problème de Colinéarité : Rj2 ≈ 1 ⇒ νj ≈ ∞

1
P
σ̂ε = n−p i ε̂i Variance estimée de l’erreur : SCR (somme des carrés des
résidus) : indicateur de qualité de la régression, divisé par les degrés de liberté.

Problème de Dimensionnalité : p ≈ n ⇒ σ̂ε ≈ ∞ et ; p > n ⇒ X 0 X n’est pas


inversible

Conséquence : Ces problèmes entraînent une variance élevée de l’estimation


c.-à-d. les coefficients estimés sont très erratiques, exagérément dépendants de
l’échantillon d’apprentissage.

Idée : Rechercher des estimateurs biaisées avec une variance petite


Dr OUATTARA Mory Régression Multiple 72 / 111
Le compromis biais variance en apprentissage automatique

Soit xn+1 supplémentaire


1 p
ŷn+1 = β̂0 + β̂1 xn+1 + . . . + β̂p xn+1

La qualité de la prédiction est évalué l’aide de :

E [(yn+1 − ŷn+1 )2 ] = σ 2 + (E (ŷn+1 ) − yn+1 )2 + E [((ŷn+1 − E (ŷn+1 ))2 ]

σ 2 : Erreur incompressible. Variance de la cible Y, on ne pourra jamais faire mieux.

(E (ŷn+1 ) − yn+1 )2 : Biais 2 Indique les insuffisances intrinsèques du modèle


(variables explicatives manquantes, ou forme de la relation non captée, etc.).

E [((ŷn+1 − E (ŷn+1 ))2 ] Variance. Dispersion de la prédiction autour de sa propre


espérance. Témoigne de l’instabilité du modèle, sa dépendance aux fluctuations de
l’échantillon d’apprentissage.

Dr OUATTARA Mory Régression Multiple 73 / 111


Principe de la régularisation

E [(yn+1 − ŷn+1 )2 ] = σ 2 + (E (ŷn+1 ) − yn+1 )2 + E [((ŷn+1 − E (ŷn+1 ))2 ]


Objectif : éviter le surapprentissage c.-à-d. apprendre de l’échantillon de données
d’apprentissage, mais pas trop. . . (pas de sur dépendance)

Quelle principe ? Accepter une légère augmentation du biais pour obtenir une
réduction plus que proportionnelle de la variance

Comment ? Diriger (réguler) un peu plus fermement la modélisation en imposant


des contraintes sur les paramètres estimés de la régression (contraintes sur les
valeurs que pourront prendre les β̂j dans leur ensemble pour éviter qu’elles soient
totalement erratiques)

Au final, le modèle sera plus performant puisqu’on diminue l’erreur de


prédiction espérée

Dr OUATTARA Mory Régression Multiple 74 / 111


Comment garder toutes les variables

Régression sur composantes principales


Régression PLS
Régression ridge
Lasso
Utile pour le cas maudit : p>n
Mais : perte de certaines propriétés : estimateurs biaisés, non-invariance par
changement d’échelle
Nécessité de centrer réduire au préalable

Dr OUATTARA Mory Régression Multiple 75 / 111


Regression sur Composantes
Prinicpales
PCR

Dr OUATTARA Mory Régression Multiple 76 / 111


PCR

ACP sur X
Chaque composante est une combinaison linéaire de tous les prédicteurs
Régression ascendante sur la première composante, puis sur les deux
premières etc.
Composantes principales non corrélées entre elles
On garde tous les prédicteurs

Dr OUATTARA Mory Régression Multiple 77 / 111


ACP

Dr OUATTARA Mory Régression Multiple 78 / 111


ACP

Dr OUATTARA Mory Régression Multiple 79 / 111


PCR

Dr OUATTARA Mory Régression Multiple 80 / 111


PCR

Dr OUATTARA Mory Régression Multiple 81 / 111


PCR

Dr OUATTARA Mory Régression Multiple 82 / 111


PCR les +/-

Avantages

I Gère les jeux de données "Larges" (p>n)

I Diminue la variabilité des estimateurs en raison de multicolinearité

I Outils de visualisation

Inconvénients

I Estimateurs biaisés

I Solution non équivalente par rapport au changement d’échelle.

I Les composantes sont dépendantes de la structure de corrélation de X sans


tenir compte de la corrélation entre Y et les prédicteurs

Dr OUATTARA Mory Régression Multiple 83 / 111


Régression PLS

Dr OUATTARA Mory Régression Multiple 84 / 111


PLS

projection sur des combinaisons linéaires des prédicteurs non corrélées entre
elles

différence essentielle : composantes PLS optimisées pour être prédictives de


Y, alors que les composantes principales ne font qu’extraire le maximum de
variance des prédicteurs sans tenir compte de Y

Dr OUATTARA Mory Régression Multiple 85 / 111


Régression PLS

Recherche des informations sur X qui explique le mieux Y

t = Xw telle que le critère max cov 2 (y , Xw )

Compromis entre maximiser la corrélation entre t et y (régression classique)


et maximiser la variance de t (ACP des prédicteurs)

cov 2 (y , Xw ) = r 2 (y , Xw )V (Xw )V (y )

Dr OUATTARA Mory Régression Multiple 86 / 111


Régression PLS

Solution

w1 (p × 1) tels que les w1j sont proportionnels aux covariances cov (y , x j )

Régression PLS avec une composante y = c1 t1 + y1

deuxième composante PLS t2 en itérant le procédé : régression de y1 sur les


résidus des régressions des xj avec t1 puis y = c1 t1 + c2 t2 + y2 etc.

Dr OUATTARA Mory Régression Multiple 87 / 111


Régression PLS

Nombre de composantes PLS choisi par validation croisée

La première composante PLS est toujours plus corrélée avec Y que la


première composante principale

deuxième composante PLS t2 en itérant le procédé : régression de y1 sur les


résidus des régressions des xj avec t1 puis y = c1 t1 + c2 t2 + y2 etc.

cov (y , t) = r (y , t)σ(t)σ(y ) ≥ cov (y , c1 ) = r (y , c1 )σ(c)σ(y )

donc r (y , t)σ(t) ≥ r (y , c1 )σ(c1 ) σ(c1 ) ≥ σ(t)

d’où r (y , t) ≥ r (y , c1 )

Dr OUATTARA Mory Régression Multiple 88 / 111


Conclusions

Avantage de la régression PLS : simplicité de son algorithme. Ni inversion, ni


diagonalisation de matrices, mais seulement une succession de régressions
simples, autrement dit des calculs de produits scalaires. On peut donc traiter
de très grands ensembles de données.

la régression PLS donne en pratique d’excellentes prévisions, même dans le


cas d’un petit nombre d’observations et d’un grand nombre de variables.

Dr OUATTARA Mory Régression Multiple 89 / 111


Les modèles linéaires généralisés

Dr OUATTARA Mory Régression Multiple 90 / 111


Objectif : Etudier la liaison entre une variable dépendante ou réponse Y et un
ensemble de variables explicatives ou prédicteurs X1 , . . . , Xp

Il comprend :

le modèle linéaire général (régression multiple, analyse de la variance et


analyse de la covariance)

le modèle log-linéaire

la régression logistique

la régression de Poisson

Dr OUATTARA Mory Régression Multiple 91 / 111


Les composantes du modèle linéaire généralisé

Le modèle linéaire généralisé est formé de trois composantes :

Composante aléatoire : la variable de réponse Y, à laquelle est associée une


loi de probabilité.
Ex : Y Gaussienne pour le modèle linéaire ;

Composante déterministe : les variables explicatives X1 , . . . , Xp utilisées


comme prédicteurs dans le modèle

Le lien : décrit la relation fonctionnelle entre la combinaison linéaire des


variables X1 . . . .Xp et l’espérance mathématique de la variable de réponse
Y

Ex : g (E [Y |X = x]) = x 0 β. pour le modèle linéaire

Dr OUATTARA Mory Régression Multiple 92 / 111


Composante aléatoire

La loi de probabilité de la composante aléatoire Y appartient à la famille


exponentielle

Une loi de probabilité P appartient à une famille de lois de type


exponentielle Pθ , θ ∈ Rp si il existe une mesure dominant µ (Lebesgue ou
mesure de comptage le plus souvent) telle que les lois Pθ admettent pour
densité par rapport à ν

fθ (y ) = exp(Q(θ)Tj (y ) − α(θ) − c(y ))

où T est une fonction réelle et Q C 1 strictement monotone

Dr OUATTARA Mory Régression Multiple 93 / 111


Composante aléatoire
Exemple :
Loi exponentielle E(λ) :

λ exp(−λy ) = exp(−λy + log(λ))

T = id, Q(λ) = −λ et α(λ) = −log (λ)


Loi de Bernoulli Ber (p)
   
y 1−y p
p (1 − p) = exp y log + log(1 − p)
1−p

T = id, Q(p) = p/(1 − p), et α(p) = − log(1 − p)


Loi de Poisson P(λ)

λy
exp(−λ) = exp(y log(λ) − λ − log(y !))
y!

On pose T = id, Q(λ) = log(λ), et α = id.

Dr OUATTARA Mory Régression Multiple 94 / 111


Composante aléatoire

Notons (Y1 , . . . ., Yn ) un échantillon aléatoire de taille n de la variable de


réponse Y. Les Yi sont indépendantes et peuvent être binaires (
succès-échecs, présence-absence ) : Loi de Bernoulli, loi binomiale

Yi peut être distribuée selon une loi de Poisson

Yi peut être distribuée selon une loi normale

Dr OUATTARA Mory Régression Multiple 95 / 111


Composante déterministe

La composante déterministe, exprimée sous forme d’une combinaison linéaire


β0 + β1 X1 + . . . + βp Xp (appelée aussi prédicteur linéaire) précise quels sont
les prédicteurs.

Certaines des variables Xj peuvent se déduire de variables initiales utilisées


dans le modèle, par exemple :

X3 = X1 ∗ X2

de façon à étudier l’interaction entre X1 et X2

X4 = X12

de façon à prendre en compte un effet non linéaire de la variable X1

Dr OUATTARA Mory Régression Multiple 96 / 111


Le Lien

La troisième composante d’un modèle linéaire généralisé est le lien entre la


composante aléatoire et la composante déterministe.

Il spécifie comment l’espérance mathématique de Y notée µ est liée au


prédicteur linéaire construit à partir des variables explicatives.

On peut modéliser l’espérance µ directement ( régression linéaire usuelle ) ou


modéliser une fonction monotone g (µ) de l’espérance :

g (µ) = β0 + β1 X1 + . . . + βp Xp

g inversible et continument différentiable

Dr OUATTARA Mory Régression Multiple 97 / 111


Le lien

La fonction de lien g (µ) = log (µ) permet par exemple de modéliser le


logarithme de l’espérance. Les modèles utilisant cette fonction de lien sont
des modèles log-linéaires.

µ
La fonction de lien g (µ) = log ( 1−µ ) modélise le logarithme du rapport des
chances. Elle est appelée logit et est adaptée au cas où µ est comprise entre
0 et 1 ( par exemple la probabilité de succès dans une loi binomiale).

Dr OUATTARA Mory Régression Multiple 98 / 111


Le lien

A toute loi de probabilité de la composante aléatoire est associée une


fonction spécifique de l’espérance appelée paramètre canonique.

Pour la distribution normale il s’agit de l’espérance elle même.

Pour la distribution de Poisson le paramètre canonique est le logarithme de


l’espérance.

Pour la distribution binomiale le paramètre canonique est le logit de la


probabilité de succès.
La fonction de lien qui utilise le paramètre canonique dans la famille des
modèles linéaires généralisés, est appelée la fonction de lien canonique.

En pratique, dans de nombreux cas les modèles linéaires généralisés sont


construits en utilisant la fonction de lien canonique.

Dr OUATTARA Mory Régression Multiple 99 / 111


Loi de probabilité de la réponse Y

La loi de probabilité de la réponse Yi doit appartenir à la famille exponentielle


 
yi θi − b(θi )
fθi (yi ) = exp + c(yi , φ)
a(φ)

Les fonctions a, b et c sont spécifiées en fonction du type de loi exponentielle.

θi et φ sont des paramètres inconnus


On montre que :

E (Yi ) = b 0 (θi ) et V (Yi ) = b 00 (θi )ai (φ)


Les lois de probabilités telles que la loi normale, la loi binomiale, la loi de
Poisson, la loi Gamma et la loi de Gauss inverse appartiennent à la famille
exponentielle décrite précédemment.

Dr OUATTARA Mory Régression Multiple 100 / 111


Composantes de la famille exponentielle

Distribution θ(µ) b(θ) a(φ0 )


θ2
Normale N(µ, σ 2 ) µ 2 σ2
µ
Bernoulli Ber (µ) log ( 1−µ ) log (1 + e θ ) 1
Poisson P(µ) log (µ) eθ 1
Gamma(µ, ν) − µ1 -log (−θ) 1
ν
1
Gauss Inverse IG(µ, σ 2 ) - 2µ1 2 −(−2θ) 2 σ 2

Dr OUATTARA Mory Régression Multiple 101 / 111


Espérance et variance

Distribution E (Y ) = b 0 (θ) V (Y ) = b 00 (θ)a(φ0 )


θ2
Normale N(µ, σ 2 ) µ=θ 2

Bernoulli B(1, µ) µ = 1+eθ µ(1 − µ)
Poisson P(µ) µ = e ( θ) µ
µ2
Gamma(µ, ν) µ = − θ1 ν
1
Gauss Inverse IG(µ, σ 2 ) µ = (−2θ) 2 3 2
µ σ

Dr OUATTARA Mory Régression Multiple 102 / 111


Vraisemblance et estimation

On introduit alors une fonction de lien g inversible et continument différentiable


telle que ηi = Xi β = g (µi ) = g (E (Yi )).

Quand on choisit la fonction g de telle sorte que ηi = θi on parle alors de fonction


de lien canonique.

A partir de l’échantillon (Yi , Xi ), on forme alors la log vraisemblance (on prend ici
le lien canonique)

n n
X X yi θi − b(θi )
log (L(β)) = log (f (Yi )) = { + c(yi , φ)}
a(φ)
i=1 i=1
n
X yi ηi − b(ηi )
= { + c(yi , φ)}
a(φ)
i=1

Dr OUATTARA Mory Régression Multiple 103 / 111


Vraisemblance et estimation
On peut alors définir l’estimateur au maximum de vraisemblance de β par

n
X yi θi − b(θi )
β̂ = argmax { + c(yi , φ)}
β a(φ)
i=1
n
1 X yi ηi − b(ηi )
= argmin − { + c(yi , φ)}
β n a(φ)
i=1

ou de façon équivalente (en admettant la convexité) β̂ est solution de


n
1 X yi ηi − b(ηi )
− { + c(yi , φ)} = 0
n a(φ)
i=1

On définit également la prédiction Ŷi de Yi comme

Ŷi = g −1 (Xi β̂)

Dr OUATTARA Mory Régression Multiple 104 / 111


Principes d’estimation d’un modèle linéaire généralisé

Pour la plupart des modèles linéaires généralisés, les équations qui


déterminent les paramètres au sens du maximum de vraisemblance sont non
linéaires et les estimateurs n’ont pas d’autres expressions formulables que
comme solutions de ces équations.

Les logiciels calculent les estimations en utilisant un algorithme itératif pour


la résolution d’équations non linéaires.

Pour calculer (approcher) l’estimateur au maximum de vraisemblance, on


utilise un algorithme de type Newton-Raphson.

Dr OUATTARA Mory Régression Multiple 105 / 111


Loi asymptotique des estimateurs

On note I(γ) = −E (52 ln (γ)).

Consistence et normalité asymptotique : Sous certaines conditions (cf.


Fahrmeir and Kaufman - 1985), on peut montrer que, pour tout vrai paramètre β
P
|β̂ − β| → 0

β̂ est asymptotiquement gaussien


√ L
n|β̂ − β| → N (0, I(β)−1 )

Dr OUATTARA Mory Régression Multiple 106 / 111


Le choix du modèle

On peut parfois essayer différentes fonction de réponses et retenir celle qui


minimise la déviance D.

Deux statistiques sont utiles pour juger de l’adéquation du modèle aux


données

1 la déviance normalisée (scaled deviance)

2 la statistique du khi-deux de Pearson

Pour mesurer l’adéquation du modèle étudié aux données, on construit tout


d’abord un modèle saturé.

Dr OUATTARA Mory Régression Multiple 107 / 111


Déviance

Modèle saturé

Le modèle saturé est le modèle à n paramètres où chaque moyenne de Yi est


remplacée par Yi . En se rappelant que θi = g (E (Yi )), le modèle saturé a alors la
log-vraissemblance
n
sat
X Yi g (Yi ) − b(g (Yi )
log L = { + c(Yi , φ)}
ai (φ)
i=1

Modèle null

Le modèle null est le modèle à 1 paramètre : l’intercept seul. On note log Lnull sa
log-vraissemblance.

Dr OUATTARA Mory Régression Multiple 108 / 111


Déviance

On définit alors la déviance (ou déviance résiduelle) pour une estimation β̂ comme

n
X Yi g (Yi ) − Xi β̂ − (b(g (Yi )) − b(Xi β̂))
D(β̂) = log Lsat − log L(β̂) = {
ai (φ)
i=1

Lorsque le modèle étudié est exact, la déviance normalisée D suit


approximativement une loi du khi-deux à n-K degrés de liberté.

Dr OUATTARA Mory Régression Multiple 109 / 111


Conclusions

Dr OUATTARA Mory Régression Multiple 110 / 111


Bibliographie

Ces Livres sont disponibles gratuitement en ligne.


G. Gasso et A. Rakotomamonjy :
https ://moodle.insa-rouen.fr/mod/resource/view.php ?id=1919

Dr OUATTARA Mory Régression Multiple 111 / 111

Vous aimerez peut-être aussi